适用nutch2.x,也应该适用1.x
-
官网下载nutch2.x源代码
-
使用ant编译
-
编译后生成文件夹:nutch/runtime/deploy/bin/
-
文件夹下有两个启动脚本
crawl
和nutch
-
crawl为nutch封装脚本,执行整个流程.分为6个阶段
inject–》generate–》fetch–》parse–》update–》index
其中generate到update为循环过程 -
对应5中的流程去nutch脚本中找调用的主类,看懂。
-
结束
附:nutch1.x入门教程
https://www.w3cschool.cn/ozbtsl/rf39kozt.html