Nutch1.7学习笔记2:基本工作流程分析
作者:雨水,时间:2013-11-13博客地址:http://blog.csdn.net/gobitan
说明:本文的工作流程分析基于1.x的最新版Nutch1.7。
找到分析源头
分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的<Nutch1.7学习笔记:基本环境搭建及使用>一文 (地址:http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到,该命令实际运行的为org.apache.nutch.crawl.Crawl类。
分析Crawl类
分析Crawl源代码,在初始化阶段可以看到了如下代码:
Injectorinjector = new Injector(getConf());
Generatorgenerator = new Generator(getConf());
Fetcher fetcher= new Fetcher(getConf());
ParseSegmentparseSegment = new ParseSegment(getConf());
CrawlDbcrawlDbTool = new CrawlDb(getConf());
LinkDb linkDbTool = new LinkDb(getConf());
上述代码实例化了六个重要的类:
(1) Injector
(2) Generator
(3) Fetcher
(4) ParseSegment
(6) LinkDb
然后就是正式执行的相关代码:
injector.inject(crawlDb, rootUrlDir);
int i;
for (i = 0; i < depth; i++) { // generate new segment
Path[] segs =generator.generate(crawlDb, segments, -1, topN, System
.currentTimeMillis());
if (segs == null){
LOG.info("Stopping at depth=" + i +" - no more URLs to fetch.");
break;
}
fetcher.fetch(segs[0], threads); // fetch it
if (!Fetcher.isParsing(job)) {
parseSegment.parse(segs[0]); // parse it, if needed
}
crawlDbTool.update(crawlDb, segs, true,true); // update crawldb
}
该部分代码执行了六个核心的方法,中间四个方法位于一个for循环中:
(1) injector.inject
(2) generator.generate
(3) fetcher.fetch
(4) parseSegment.parse
(5) crawlDbTool.update
(6) linkDbTool.invert
基本工作流程总结
从上面Crawl的类的分析可以看到,整个Nutch的基本工作流程可以归纳为:
第一步:执行Injector的inject方法,将指定url目录中的url种子文件中的URL以<url, CrawlDatum>的格式注入CrawlDb中作为第二步的输入。CrawlDatum中记录了URL的状态和元素据等信息。
第二步:执行Generator的generate方法,将CrawlDb中的<url, CrawlDatum>按照一些规则生成一些系列CrawlDb子集,包括过滤不到抓取时间还未到的URL,超过topN最大值的,子集划分方式按照Host/Ip/domain等。
第三步:采用生产者/消费者模式进行多线程抓取。
第四步:对抓取的内容进行解析,同时收集好解析出来的URL。
第五步:将解析出来的URL更新到CrawlDb中,然后再进入第二步进行循环generateàfetchàparseàupdate,直到达到设定的抓取深度后终止循环。
第六步:计算反向link图,为建索引做准备。