三,nutch 1.0 爬虫配置与运行

本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.javaeye.com ).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr


在解压出来的目录下的bin目录里建立urls文件夹,
在里面创建url.txt,内容为http://www.17173.com
这里为要抓取的入口路径,可以设置多个值,也可以放置多个txt文件
然后在cygwin里面进入这个bin目录,
输入./nutch crawl urls -dir file:///d:/solomoncrawl -depth 3
这样就可以看到开始抓取了.



nutch是一个批处理文件,后面跟的命令和参数告诉它该如何运行.
crawl urls是告诉nutch爬虫要crawl一个目录里的url,这个目录的名字是urls.
nutch爬虫有很多行为,crawl是其中一个主要行为.
-dir参数告诉它该把抓取来的东西放在什么地方,指定了一个d盘下叫solomoncrawl的目录.
-depth参数告诉它该抓取的深度,从入口url开始扩展多少层.
抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值