linux环境nutch的配置,Nutch配置

至此,配置完毕!

7、建立要抓取的url文件。我是在D:\cygwin\usr\local\nutch(即在nutch目录下建立url.txt)。里面写要抓取的url的名称,每个url必定要在末尾加上“/”。

例如:

http://www.doczj.com/doc/2b8232fefab069dc502201f5.html/

24901d3a8cb5be86aba9cb71917dbaac.png

8、抓取网页。进入nutch目录。输入如下命令:

bin/nutch crawl url.txt -dir crawled -depth 3 -threads 10 -topN 50 >& crawl.log

url.txt 指url文件

-dir crawled 抓取网页存储的文件夹。crawled文件夹可以不用自己建,没有的话自动生成的。crawldb和segments文件夹也是抓取网页过程中生成的。

92cb922ee5b12b76e27c8dde7a2666af.png

-depth 3 抓取深度为3

-threads 10 线程总数为10

crawl.log 文件也是在抓取过程当中生成的。

如下截图命令。敲完要等待抓取……

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值