Nutch2.2.1 笔记三 : 从Nutch脚本执行来看Nutch的内部执行过程

最新推荐文章于 2024-09-14 22:07:12 发布

chouhenv792675

最新推荐文章于 2024-09-14 22:07:12 发布

阅读量130

点赞数

文章标签：大数据数据库 java

原文链接：https://my.oschina.net/DLow/blog/295550

版权

网上大部分的Nutch资料都是以前相对老的版本的一些介绍，其中介绍启动Nutch大多数是用如下命令：

bin/nutch crawl urls -topN 10 -depth 1000

bin/nutch文件是一个shell脚本，我们在STS里面打开它可以观看它的代码，

实际上就是执行了org.apache.nutch.crawl.Crawler这个类，但是在Nutch2.2.1中已经告知该启动方法将要被废弃，如果我们去github上观看nutch2.x 版本的开发情况会发现正在开发的Master主分支中该类已经不存在了，官方推荐通过bin/crawl 脚本来启动Nutch，OK，既然这样在这里就不再介绍bin/nutch crawl这种启动方式和Crawler这个类了，毕竟它就要被废弃了，重点介绍bin/crawl这个脚本启动方式，我们打开脚本查看代码，可能此时还有点不太明白，但是不影响我们借此对它有一个大体的分析

在104行有一个for循环，LIMIT是传入的参数，这个值就相当于之前 bin/nutch crawl urls -topN 10 -depth 1000这种启动方式的topN这个参数，这个值是nutch抓取url链接的深度，在for循环之前执行了

这个命令，可以看到bin/crawl脚本调用的是bin/nutch脚本，inject之后就是for循环了，重点查看for循环里面的执行步奏，流程依次向下

echo "Generating a new fetchlist"  
$bin/nutch generate $commonOptions -topN $sizeFetchlist -noNorm -noFilter -adddays $addDays -crawlId $CRAWL_ID -batchId $batchId

echo "Fetching : "  
$bin/nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch $batchId -crawlId $CRAWL_ID -threads 50

echo "Parsing : "  
skipRecordsOptions="-D mapred.skip.attempts.to.start.skipping=2 -D mapred.skip.map.max.skip.records=1"  $bin/nutch parse $commonOptions $skipRecordsOptions $batchId -crawlId $CRAWL_ID

echo "CrawlDB update for $CRAWL_ID"  
$bin/nutch updatedb $commonOptions -crawlId $CRAWL_ID

在for循环内部最后的执行命令是

echo "Indexing $CRAWL_ID on SOLR index -> $SOLRURL"  
$bin/nutch solrindex $commonOptions $SOLRURL -all -crawlId $CRAWL_ID

这个命令其实是将前面抓取到的数据提交到solr中创建索引，我在项目中应用的是elasticsearch，所以我把这里给改掉了，但是不论是solr还是elasticsearch我们这里都先不讨论，重点关注前几部步奏，也就是

bin/nutch generate ......

bin/nutch fetch ......

bin/nutch parse ......

bin/nutch updatedb .....

在for循环中的这几步加上for循环前面的bin/nutch inject ......这些就组成了nutch最基本的抓取流程，上一篇我们已经在STS成功执行了inject命令了，我们可以自己观看代码知道该类接受两个参数，<url_dir>表示必须传入的种子url的地址，在local模式下表示本地地址，在deploy模式下表示hdfs内部的地址，[-crawlId <id>] 表示该参数可选，我们在上一篇执行inject的时候没有指定该参数，大体了解了bin/crawl之后我们其实就可以再STS/Eclipse单步执行调试了，研究每一步的过程对理解nutch2.2.1有很大的帮助，根据bin/nutch inject 在源代码里面找到对应执行的类org/apache/nutch/injectorJob.java，基本上主要的逻辑全部在