如何开始NUTCH

最新推荐文章于 2021-01-21 07:05:05 发布

cadany

最新推荐文章于 2021-01-21 07:05:05 发布

阅读量455

点赞数

分类专栏： 01_NUTCH

本文链接：https://blog.csdn.net/cadany/article/details/44514475

版权

01_NUTCH 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

下载、编译、配置看官方手册。使用时注意的是nutch和crawl脚本都的区别。nutch只单步执行相关命令，要按流程爬取的话用crawl脚本（种子注入到生成索引按流程处理），实质上crawl也是调用nutch脚本进行批处理的。另外，local模式时HBase要起来。

注入种子

$ bin/nutch inject   
Usage: InjectorJob <url_dir> [-crawlId <id>]

$bin/nutch inject ./urls -crawlId CRAWL_1

或

$bin/nutch inject ./urls

爬

$ bin/crawl 
Missing seedDir : crawl <seedDir> <crawlID> <solrURL> <numberOfRounds>

$ bin/crawl ./urls CRAWL_1_webpage 1

看爬结果

$hbase shell
$scan 'CRAWL_1_webpage'

crawl脚本的过程：

1、检测参数及配置

2、initial injection ==>> CLASS=org.apache.nutch.crawl.InjectorJob

3、主循环（1~numberOfRounds）

3.1、Generating a new fetchlist ==>> CLASS=org.apache.nutch.crawl.GeneratorJob

3.2、Fetching ==>> CLASS=org.apache.nutch.fetcher.FetcherJob

3.3、Parsing ==>> CLASS=org.apache.nutch.parse.ParserJob

3.4、updatedb ==> CLASS=org.apache.nutch.crawl.DbUpdaterJob

3.5、Indexing（如果有的话，默认solr） ==>> CLASS=org.apache.nutch.indexer.IndexingJob

3.6、solrdedup（如果有的话，去重） ==>> CLASS=org.apache.nutch.indexer.solr.SolrDeleteDuplicates

4、打完收工

cadany

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何开始NUTCH

1、下载2、编译3、运行3.1 注入种子$ bin/nutch inject Usage: InjectorJob [-crawlId ] 3.2 爬去$ bin/crawl Missing seedDir : crawl 3.3 拆看爬去结果$hbase shell$scan 'crawlId_webpage'
复制链接

扫一扫