Nutch1.7学习笔记2：基本工作流程分析

最新推荐文章于 2019-02-11 09:00:37 发布

gobitan

最新推荐文章于 2019-02-11 09:00:37 发布

阅读量3.5k

点赞数 3

分类专栏： 5. 大数据文章标签： nutch 网络爬虫抓取流程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gobitan/article/details/17038121

版权

5. 大数据专栏收录该内容

43 篇文章 1 订阅

订阅专栏

Nutch1.7学习笔记2：基本工作流程分析

作者：雨水，时间：2013-11-13博客地址：http://blog.csdn.net/gobitan

说明：本文的工作流程分析基于1.x的最新版Nutch1.7。

找到分析源头

分析软件的基本工作流程，通常都是从它的运行命令开始。在前面的<Nutch1.7学习笔记：基本环境搭建及使用>一文 (地址：http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到，该命令实际运行的为org.apache.nutch.crawl.Crawl类。

分析Crawl类

分析Crawl源代码，在初始化阶段可以看到了如下代码：

Injectorinjector = new Injector(getConf());

Generatorgenerator = new Generator(getConf());

Fetcher fetcher= new Fetcher(getConf());

ParseSegmentparseSegment = new ParseSegment(getConf());

CrawlDbcrawlDbTool = new CrawlDb(getConf());

LinkDb linkDbTool = new LinkDb(getConf());

上述代码实例化了六个重要的类：

(1) Injector

(2) Generator

(3) Fetcher

(4) ParseSegment

(6) LinkDb

然后就是正式执行的相关代码：

injector.inject(crawlDb, rootUrlDir);

int i;

for (i = 0; i < depth; i++) { // generate new segment

Path[] segs =generator.generate(crawlDb, segments, -1, topN, System

.currentTimeMillis());

if (segs == null){

LOG.info("Stopping at depth=" + i +" - no more URLs to fetch.");

break;

}

fetcher.fetch(segs[0], threads); // fetch it

if (!Fetcher.isParsing(job)) {

parseSegment.parse(segs[0]); // parse it, if needed

}

crawlDbTool.update(crawlDb, segs, true,true); // update crawldb

}

该部分代码执行了六个核心的方法，中间四个方法位于一个for循环中：

(1) injector.inject

(2) generator.generate

(3) fetcher.fetch

(4) parseSegment.parse

(5) crawlDbTool.update

(6) linkDbTool.invert

基本工作流程总结

从上面Crawl的类的分析可以看到，整个Nutch的基本工作流程可以归纳为：

第一步：执行Injector的inject方法，将指定url目录中的url种子文件中的URL以<url, CrawlDatum>的格式注入CrawlDb中作为第二步的输入。CrawlDatum中记录了URL的状态和元素据等信息。

第二步：执行Generator的generate方法，将CrawlDb中的<url, CrawlDatum>按照一些规则生成一些系列CrawlDb子集，包括过滤不到抓取时间还未到的URL，超过topN最大值的，子集划分方式按照Host/Ip/domain等。

第三步：采用生产者/消费者模式进行多线程抓取。

第四步：对抓取的内容进行解析，同时收集好解析出来的URL。

第五步：将解析出来的URL更新到CrawlDb中，然后再进入第二步进行循环generateàfetchàparseàupdate，直到达到设定的抓取深度后终止循环。

第六步：计算反向link图，为建索引做准备。

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

gobitan 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。