linux nutch1.0安装配置

1,下载nutch1.0

下载地址:http://archive.apache.org/dist/nutch/,下载这个文件nutch-1.0.tar.gz

 

2,上传到服务器

上传位置:/home/www/,解压nutch-1.0.tar.gz

#tar -xvf nutch-1.0.tar.gz

重命名

#mv nutch-1.0 nutch

 

3,修改配置文件

在/home/www/nutch目录下新建urls

#mkdir urls

进入url目录

#cd urls

新建seed.txt文件,写入要抓去的网站地址

#touch seed.txt

#vim seed.txt

往seed.txt文件中写入http://www.163.com

 

修改配置文件

vim /home/www/nutch/conf/crawl-urlfilter.txt

vim /home/www/nutch/conf/regex-urlfilter.txt

把上面两个文件末尾+都改成+^http://([a-z0-9]*\.)*163.com

 

4,发布到tomcat

tomcat安装在/usr/local/tomcat位置

把/home/www/nutch/nutch-1.0.war拷贝到tomcat目录的webapps下

#cp /home/www/nutch/nutch-1.0.war /usr/local/tomcat/webapps

启动tomcat

#/usr/local/tomcat/bin/start.sh

修改tomcat中项目的配置文件

#vim /usr/local/tomcat/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml

改成以下代码

<configuration>
<property>
        <name>http.agent.name</name>
        <value>nutch-1.0</value>
</property>
<property>
        <name>searcher.dir</name>
        <value>/home/www/nutch/crawl</value>
</property>
</configuration>

 注意这个地方的http.agent.name,网上的很多安装配置都没写这个,没写这个在最后一步找不到结果的。

修改完以上文件后,重启tomcat

 

5,抓取网页数据

进入nutch根目录

#cd /home/www/nutch

执行抓取命令

#bin/nutch crawl urls -dir crawl -depth 3 -topN 5

urls:是之前建立的urls抓取网页的文件地址

第二个crawl:是抓取到的内容索引文件存放的位置

depth:要抓取网站顶级网址为起点的爬行深度

threads:指定并发的线程数

topN:一个网站保存的最大页面数

 

抓取网页的时候,一定要注意想要的网站能ping通,如果不能ping通的话,在/etc/resolv.conf文件中加入以下内容:

nameserver 202.106.0.20

 

6,搜索内容

打开http://192.168.1.99:8080/nutch-1.0/search.jsp,输入相关内容搜索即可,得到以下页面。

看到这个就大功告成了。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值