第一步:安装
安装步骤比较简单
1、登录apache nutch网站,下载bin包
2、解压到centos的指定目录,如/opt/apache-nutch-1.12
3、进入安装路径/opt/apache-nutch-1.12,执行bin/nutch,如果提示如下图所示,表示正确安装
第二步:配置&执行
注意:Nutch从1.9版本开始,将crawl做成了一个独立的命令,不再集成到nutch命令中了。配置上也和早期版本有些区别,如果配置错误,启动爬虫job时会出错。
1、修改Nuthc安装目录下:conf/nutch-site.xml,在<configuration></configuration>之间增加如下配置
2、在Nutch安装目录下创建urls目录,并在其中创建seed.txt文件,将要爬的网站的名称写到seed.txt中。注意,网站最后要加/。如需要写成http://www.baidu.com/这种形式。
3、在Nutch安装目录下创建result目录,放置爬虫爬下来的结果数据。改路径不一定要放到Nutch安装目录下,也可以放到其他任意目录下。
4、执行如下命令:bin/crawl urls result 5,Nutch会启动爬虫对seed.txt中保存的所有网站进行数据爬取。爬取深度为5,结果放到result目录下。
5、爬虫执行完成后,可以通过如下命令来查看结果:bin/nutch readdb result/crawldb/ -stats。结果如下图所示: