Nutch1.7学习笔记6:ParseSegment源代码分析

ParseSegment分析

ParseSegment类的结构相对要简单一些,与Injector等在内部类中实现map和reduce的方式不同,它直接在类中实现。



核心方法解析:

map方法的功能包括:

(1) 检查URL对应的Content是否抓取成功,如果没有直接返回,否则继续;

(2) 检查Content的内容是否为truncated以及parser.skip.truncated参数的值。如果内容为truncated状态并且该参数值为true(nutch-default.xml默认为true),则直接返回,否则继续;

(3) 调用解析工具类ParseUtil去解析抓取的内容,具体解析过程后面会详述。解析后返回的结果是一个叫ParseResult的类型。这个类型包含被解析内容对应的原始URL和一个装有解析结果的map集合。map里的类型为<Text,Parse>。Text存放被解析内容的URL,Parse接口的实现里包含了三部分信息:ParseText,ParseData和一个boolean值表示原始URL和被解析的URL是否相等。其中ParseText存放解析出来的文本,ParseData里包含了解析的其他结果,如title, outlinks, MetaData和ParseStatus等。然后执行所有预置的过滤器对解析结果进行过滤。

(4) 根据content内容计算MD5摘要。

(5) 执行scorefilter,具体有待进一步分析:TODO。

reduce方法:基本没干什么活

parse方法:Hadoop的job配置及提交运行。

FileInputFormat.addInputPath(job, new Path(segment,Content.DIR_NAME));

job.set(Nutch.SEGMENT_NAME_KEY, segment.getName());

job.setInputFormat(SequenceFileInputFormat.class);

job.setMapperClass(ParseSegment.class);

job.setReducerClass(ParseSegment.class);



FileOutputFormat.setOutputPath(job, segment);

job.setOutputFormat(ParseOutputFormat.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(ParseImpl.class);

涉及到的重要类:ParseOutputFormat和ParseImpl

输出格式类ParseOutputFormat分析

按照特定的格式处理HTMLParse解析后的结果,并输出到文件系统中。具体细节待分析:TODO!

输出值类型类ParseImpl分析

ParseImpl相对简单,该类主要包含了页面解析后的结果及文件的写入和读取。解析结果前面已经解释了,由ParseText和ParseData构成。

解析过程详解:

ParseUtil工具类会根据内容的Content-Type匹配合适的解析类,一般的html页面通常采用org.apache.nutch.parse.html.HtmlParser类。这里采用了延迟加载的方式,也就是只有需要用到的时候采取实例化。实例化后的解析器放在一个Vector集合中的。

HtmlParser解析器也是调用的第三方的解析库,是通过nutch-default.xml中的parser.html.impl参数来配置的。目前支持NekoHTML和TagSoup两种。默认配置采用的是CyberNeko HTML Parser.在http://nekohtml.sourceforge.net/可以找到Neko解析器的详细介绍及源代码。解析后返回的是一个DocumentFragment对象,它是一个XML的DOM树。具体格式可参见http://www.w3school.com.cn/xmldom/dom_documentfragment.asp。 也就是说解析第一步就是将html文档解析为XML格式的DOM树,然后Nutch提供一个从DOM树中提取各种数据的工具类DOMContentUtils,再在此基础上提取需要的信息。

提取信息的时候,Nutch提供一个NodeWalker,该类允许以栈而不是递归的方式来访问DOM树。NodeWalker访问DOM树的时候,会忽略script,style和COMMENT_NODE类型的节点。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值