Nutch1.7基本工作流程分析

找到分析源头

分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的<Nutch1.7学习笔记:基本环境搭建及使用>一文 (地址:http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到,该命令实际运行的为org.apache.nutch.crawl.Crawl类。

分析Crawl类

分析Crawl源代码,在初始化阶段可以看到了如下代码:

    Injectorinjector = new Injector(getConf());

    Generatorgenerator = new Generator(getConf());

    Fetcher fetcher= new Fetcher(getConf());

    ParseSegmentparseSegment = new ParseSegment(getConf());

    CrawlDbcrawlDbTool = new CrawlDb(getConf());

    LinkDb linkDbTool = new LinkDb(getConf());

上述代码实例化了六个重要的类:

(1)   Injector

(2)   Generator

(3)   Fetcher

(4)   ParseSegment

(5)   CrawlDb

(6)   LinkDb

然后就是正式执行的相关代码:

injector.inject(crawlDb, rootUrlDir);

    int i;

    for (i = 0; i < depth; i++) {            // generate new segment

      Path[] segs =generator.generate(crawlDb, segments, -1, topN, System

          .currentTimeMillis());

      if (segs == null){

        LOG.info("Stopping at depth=" + i +" - no more URLs to fetch.");

        break;

      }

     fetcher.fetch(segs[0], threads);  // fetch it

      if (!Fetcher.isParsing(job)) {

       parseSegment.parse(segs[0]);    // parse it, if needed

      }

     crawlDbTool.update(crawlDb, segs, true,true); // update crawldb

    }

   

该部分代码执行了六个核心的方法,中间四个方法位于一个for循环中:

(1)   injector.inject

(2)   generator.generate

(3)   fetcher.fetch

(4)   parseSegment.parse

(5)   crawlDbTool.update

(6)   linkDbTool.invert

 

基本工作流程总结

从上面Crawl的类的分析可以看到,整个Nutch的基本工作流程可以归纳为:

第一步:执行Injector的inject方法,将指定url目录中的url种子文件中的URL以<url, CrawlDatum>的格式注入CrawlDb中作为第二步的输入。CrawlDatum中记录了URL的状态和元素据等信息。

第二步:执行Generator的generate方法,将CrawlDb中的<url, CrawlDatum>按照一些规则生成一些系列CrawlDb子集,包括过滤不到抓取时间还未到的URL,超过topN最大值的,子集划分方式按照Host/Ip/domain等。

第三步:采用生产者/消费者模式进行多线程抓取。

第四步:对抓取的内容进行解析,同时收集好解析出来的URL。

第五步:将解析出来的URL更新到CrawlDb中,然后再进入第二步进行循环generateàfetchàparseàupdate,直到达到设定的抓取深度后终止循环。

第六步:计算反向link图,为建索引做准备。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值