从crawl 脚本看 nutch crawl过程 上
crawl 脚本用来实现 nutch 中对于网页的抓取 分析 索引工作。
把工程下下来之后 ,进入到 bin 目录:
两个脚本文件 crawl nutch
crawl 是对nutch 的进一步封装
首先我们看一下他的注释:
# UNLIKE THE NUTCH ALL-IN-ONE-CRAWL COMMAND THIS SCRIPT DOES THE LINK INVERSIO
原创
2016-07-05 11:24:06 ·
476 阅读 ·
0 评论