nutch源代码阅读心得

转载 2013年12月02日 10:01:47

主要类分析:
一、 org.apache.nutch.crawl.Injector: (注入url)
    1,注入url.txt
    2,url标准化
    3,拦截url,进行正则校验(regex-urlfilter.txt)
    4,对符URL标准的url进行map对构造<url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级!
    5,reduce只做一件事,判断url是不是在crawldb中已经存在,如果存在则直接读取原来CrawlDatum,如果是新host,则把相应状态存储到里边(STATUS_DB_UNFETCHED(状态意思为没有采集过))!

二、org.apache.nutch.crawl.Generator: (生成抓取列表)
    1,过滤不及格url (使用url过滤插件)
    2,检测URL是否在有效更新时间里
    3,获取URL metaData,metaData记录了url上次更新时间
    4,对url进行打分
    5,将url载入相应任务组(以host为分组)
    6,计算url hash值
    7,收集url, 直至到达 topN 指定量

三、 org.apache.nutch.crawl.Fetcher: (抓取)
    1,从segment中读取<url, CrawlDatum>,将它放入相应的队列中,队列以queueId为分类,而queueId是由 协议://ip 组成,在放入队列过程中,如果不存在队列则创建(比如javaeye的所有地址都属于这个队列:http://221.130.184.141)  --> queues.addFetchItem(url, datum);
    2,检查机器人协议是否允许该url被爬行(robots.txt) --> protocol.getRobotRules(fit.url, fit.datum);
    3,检查url是否在有效的更新时间里 --> if (rules.getCrawlDelay() > 0) 
    4,针对不同协议采用不同的协议采用不同机器人,可以是http、ftp、file,这地方已经将内容保存下来(Content)。 --> protocol.getProtocolOutput(fit.url, fit.datum);
    5,成功取回Content后,在次对HTTP状态进行识别(如200、404)。--> case ProtocolStatus.SUCCESS: 
    6,内容成功保存,进入ProtocolStatus.SUCCESS区域,在这区域里,系统对输出内容进行构造。 --> output(fit.url, fit.datum, content, status, CrawlDatum.STATUS_FETCH_SUCCESS);
    7,在内容构造过程中,调取内容解析器插件(parseUtil),如mp3\html\pdf\word\zip\jsp\swf……。 --> this.parseUtil.parse(content); --> parsers[i].getParse(content);
    8,我们现在研究html解析,所以只简略说明HtmlParser,HtmlParser中,会解析出text,title, outlinks, metadata。  
        text:过滤所有HTML元素;title:网页标题;outlinks:url下的所有链接;metadata:这东西分别做那么几件事情 首先检测url头部的meta name="robots" 看看是否允许蜘蛛爬行,其次通过对meta http-equiv refresh等属性进行识别记录,看页面是否需要转向。

四、 org.apache.nutch.parse.ParseSegment: (解析)
    1,这个类逻辑就相对简单很多了哦,它对我们也是很有价值的,它只做一件事情,就是对爬行下来的Content(原始HTML)进行解析,具体解析通过插件来实现。
        比如我们要做的数据分析、数据统计都可以在这进行实现。
    2,执行完成后,输出三个Map对<url,ParseText>解析内容、<url,ParseData>包含所有链接的分析后的结果 、<url,CrawlDatum>outlinks

五、org.apache.nutch.crawl.CrawlDb: (更新CrawlDB)
    主要根据crawld_fatch输出更新crawldb。
    1,map对crawld_fatch、crawldb地址进行标准化(nomalizer)和拦截操作(filte);
    2,reduce在对两crawld_fatch和crawldb进行合并更新。

六、org.apache.nutch.crawl.LinkDb:
    这个类的作用是管理新转化进来的链接映射,并列出每个url的外部链接(incoming links)。
    1,先是对每一个url取出它的outLinks,作map操作把这个url作为每个outLinks的incoming link,
    2,在reduce里把根据每个key来把一个url的所有incoming link都加到inlinks里。
    3,这样就把每个url的外部链接统计出来了,注意,系统对只对外部链接进行统计,什么叫外部链接呢,就是只对不同host进行统计,
        记住javaeye.com和biaowen.javaeye.com是两个不同的host哦。 --> boolean ignoreInternalLinks = true;
    4,然后一步是对这些新加进来的链接进行合并。

七、 org.apache.nutch.crawl.Indexer: 
    这个类的任务是另一方面的工作了,它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。
    这里的输入就比较多了,有segments下的fetch_dir,parseData和parseText,还有crawldb下的 current_dir和linkdb下的current_dir。
    1,在这个类里,map将所有输入都装载到一个容器里边,
    2,再到reduce进行分类处理,
    3,实现拦截 --> this.filters.filter(doc, parse, key, fetchDatum, inlinks);
    4,打分 --> this.scfilters.indexerScore(key, doc, dbDatum,fetchDatum, parse, inlinks, boost);
    5,当然要把这些数据体组合成一个 lucene的document让它索引了。
    6,在reduce里组装好后收集时是<url,doc>,最后在输出的OutputFormat类里进行真正的索引。
        doc里有如下几个field
            content(正文)
            site    (所属主地址
            title    (标题)
            host    (host)
            segement    (属于哪个segement)
            digest    (MD5码,去重时候用到)
            tstamp    (时间戳)
            url    (当前URL地址)
            载了一个例子:
                doc = 
                    {content=[biaowen - JavaEye技术网站 首页 新闻 论坛 博客 招聘 更多 ▼ 问答 ………………(内容省略)………… biaowen 永NF/ICP备05023328号], 
                    site=[biaowen.javaeye.com], 
                    title=[biaowen - JavaEye技术网站], 
                    host=[biaowen.javaeye.com], 
                    segment=[20090725083125], 
                    digest=[063ba8430fa84e614ce71276e176f4ce], 
                    tstamp=[20090725003318265], 
                    url=[http://biaowen.javaeye.com/]}

八、 org.apache.nutch.crawl.DeleteDuplicates: 
    这个类的作用就是这它的名字所写的意思--去重。
    前面索引后(当然不是一次时的情况)会有重复,所以要去重。为什么呢,在一次索引时是不重复的,可是多次抓取后就会有重复了。
    就是这个原因才要去重。当然去重的规则有两种一个是以时间为标准,一种是以内容的md5值为标准。

九、org.apache.nutch.indexer.IndexMerger: 
    这个类就相对简单了,目的将多个indexes合并为一个index,直接调用lucene方法实现!


附带些参考资料:

目录结构,参考自《Lucene+Nutch搜索引擎开发》
    一、crawldb    下载的url,以及下载日期,用来进行页面更新
    二、segements    存放抓取页面和分析结果
                        1、crawl_generate:待下载url
                        2、crawl_fetch:每个下载url的状态
                        3、content:每个下载页面的内容
                        4、parse_text:包含每个解析过的url文本内容
                        5、parse_data:每个url解析出的外部链接和元数据
                        6、crawl_parse:用来更新crawl的外部链接库
    三、linkdb    存放url的互联关系
    四、indexes:存放每次下载的独立索引目录
    五、index:符合lucene格式的索引目录,是indexes里所有index合并后的完整索引

相关文章推荐

nutch源代码阅读心得

主要类分析: 一、 org.apache.nutch.crawl.Injector:     1,注入url.txt     2,url标准化     3,拦截url,进行正则校验(rege...
  • RuizeMa
  • RuizeMa
  • 2011年08月11日 15:02
  • 237

nutch源代码阅读心得

http://www.javaeye.com/topic/570440 主要类分析: 一、 org.apache.nutch.crawl.Injector:     1,注入url.txt     ...
  • skydxd
  • skydxd
  • 2013年05月09日 11:03
  • 660

nutch源代码阅读心得

nutch源代码阅读心得 http://www.javaeye.com/topic/570440 主要类分析: 一、 org.apache.nutch.crawl.Injector:     1,...
  • xxjin
  • xxjin
  • 2013年09月27日 09:11
  • 1170

nutch源代码阅读心得

转自:http://www.iteye.com/topic/570440 主要类分析: 一、 org.apache.nutch.crawl.Injector:      1,注入url....
  • daisyZH
  • daisyZH
  • 2012年12月20日 17:12
  • 204

nutch主流程代码阅读心得

之前对nutch进行些分析,打算在基础上进行一些应用,不过最近忙着,也没弄出个所以然,先把阅读心得贴出来,里边可能有不少理解上的错误,仅供参考用,万一突然有人转载了,请保留blog出处 。也希望能认识...

c++ 源代码阅读心得

  • 2011年05月03日 10:43
  • 192KB
  • 下载

Web Crawling and Data Miniing with Apache Nutch(翻译+学习心得)_01

笨小葱会在这两个月翻译完这本传说中的418元一本的神作。0.0.由于英语很烂,只能说个笨小葱理解的大概意思,很多地方翻译不到位请各位大拿指出,我会及时更正的。请多多包涵0.0 Pre...

Nutch源代码浅析(四)探究fetch的工作原理

我们来看看fetch是如何工作的,如何启动多线程。看1087行,创建了一个NutchConf,在nutch中,用到了hadoop库来管理分布式的文件系统和作业处理,NutchConf从JobConf继...
  • luoyt99
  • luoyt99
  • 2011年03月11日 17:08
  • 1330

Nutch1.7学习笔记3:Injector源代码分析

Injector的主要功能 Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。 Injector类基本构成 (1) 三个主成员变量 n...

Nutch1.7学习笔记6:ParseSegment源代码分析

Nutch1.7学习笔记6:ParseSegment源代码分析 作者:雨水,时间:2013-11-17 博客地址:http://blog.csdn.net/gobitan ParseSegment分析...
  • gobitan
  • gobitan
  • 2013年11月30日 10:38
  • 3606
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:nutch源代码阅读心得
举报原因:
原因补充:

(最多只允许输入30个字)