分布式爬虫nutch学习路线2022

适用nutch2.x,也应该适用1.x

  1. 官网下载nutch2.x源代码

  2. 使用ant编译

  3. 编译后生成文件夹:nutch/runtime/deploy/bin/

  4. 文件夹下有两个启动脚本crawlnutch

  5. crawl为nutch封装脚本,执行整个流程.分为6个阶段
    inject–》generate–》fetch–》parse–》update–》index
    其中generate到update为循环过程

  6. 对应5中的流程去nutch脚本中找调用的主类,看懂。

  7. 结束

附:nutch1.x入门教程
https://www.w3cschool.cn/ozbtsl/rf39kozt.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值