Centos7安装配置Apache Nutch 1.12

第一步:安装

安装步骤比较简单

1、登录apache nutch网站,下载bin包

2、解压到centos的指定目录,如/opt/apache-nutch-1.12

3、进入安装路径/opt/apache-nutch-1.12,执行bin/nutch,如果提示如下图所示,表示正确安装



第二步:配置&执行

注意:Nutch从1.9版本开始,将crawl做成了一个独立的命令,不再集成到nutch命令中了。配置上也和早期版本有些区别,如果配置错误,启动爬虫job时会出错。

1、修改Nuthc安装目录下:conf/nutch-site.xml,在<configuration></configuration>之间增加如下配置


2、在Nutch安装目录下创建urls目录,并在其中创建seed.txt文件,将要爬的网站的名称写到seed.txt中。注意,网站最后要加/。如需要写成http://www.baidu.com/这种形式。

3、在Nutch安装目录下创建result目录,放置爬虫爬下来的结果数据。改路径不一定要放到Nutch安装目录下,也可以放到其他任意目录下。

4、执行如下命令:bin/crawl urls result 5,Nutch会启动爬虫对seed.txt中保存的所有网站进行数据爬取。爬取深度为5,结果放到result目录下。

5、爬虫执行完成后,可以通过如下命令来查看结果:bin/nutch readdb result/crawldb/ -stats。结果如下图所示:



其他说明

网上对Nutch1.9以前版本的使用说明介绍很多,但是从1.9版本开始,配置做了不小的调整。如果按照1.9之前版本的配置启动crawl,会出现job run失败的错误。
如:早期版本需要配置conf/regex-urlfilter.txt,通过该文件配置对哪些网站的哪些二级域名等进行爬取。1.9以后的版本无需配置该项,而且如果配置了,就会出现如下的错误。

nutch java.io.IOException: Job failed!  



评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

郑再鹏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值