三,nutch 1.0 爬虫配置与运行

本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接[url]http://zolomon.iteye.com[/url]).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料[url]http://www.google.com/profiles/solomon.royarr[/url]


在解压出来的目录下的bin目录里建立urls文件夹,
在里面创建url.txt,内容为http://www.17173.com
这里为要抓取的入口路径,可以设置多个值,也可以放置多个txt文件
然后在cygwin里面进入这个bin目录,
输入./nutch crawl urls -dir file:///d:/solomoncrawl -depth 3
这样就可以看到开始抓取了.
[img]http://www.iteye.com/upload/attachment/97010/bc3c1af8-ef3d-3772-86d0-93dba276f818.gif[/img]
[img]http://www.iteye.com/upload/attachment/97012/d6166120-7dc3-3a85-8535-7e3eea866a6c.gif[/img]
[img]http://www.iteye.com/upload/attachment/97014/d89257c9-0365-3558-ac7d-782d1710aacb.gif[/img]
nutch是一个批处理文件,后面跟的命令和参数告诉它该如何运行.
crawl urls是告诉nutch爬虫要crawl一个目录里的url,这个目录的名字是urls.
nutch爬虫有很多行为,crawl是其中一个主要行为.
-dir参数告诉它该把抓取来的东西放在什么地方,指定了一个d盘下叫solomoncrawl的目录.
-depth参数告诉它该抓取的深度,从入口url开始扩展多少层.
抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来.
[img]http://www.iteye.com/upload/attachment/97046/ae01f778-4081-3acf-b6f5-4eaef176f773.gif[/img]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值