背景:最近在做一个关于Nutch的搜索引擎系统,要对Nutch进行自己的改进来用到项目中
ParseSegment的执行流程分析:Nutch是基于Hadoop框架的,ParseSegment解析类的执行过程就是以Hadoop为框架程序的执行流程
(1)Crawl类调用ParseSegment解析类的parse函数,对上一步检索返回的网页进行解析。
(2)ParseSegment解析类的parse函数按照Hadoop框架基本执行流程,创建JobConf配置信息类实例,然后将自己设置为配置信息类的Mapper和Reducer属性,同时设置其他程序执行用到的配置信息,最后parse函数调用JobClient的run函数,按照JobConf配置的信息进行忠实的执行。
(3)JobClient通过一系列的调用,最终通过submitJobInternal()函数调用LocalJobRunner类的submitJob()函数提交工作。
(4)LocalJobRunner类的submitJob函数创建Job类,返回工作状态,Job类在创建实例的同时会启动自身进行执行。
(5)Job类的run函数主要进行了三项工作,首先对输入的数据进行分块处理,然后调用对数据进行MapTask进行map处理,最后调用ReduceTask对数据进行reduce处理。
(6)MapTask的run函数会调用runOldMapper函数,runOldMapper函数用jobConf中的MapperRunnerClass信息构造 MapRunnable实例。
(7)MapRunnable实例最终调用MapperRunnerClass的map函数,完成整个过程。
备注:输入给ParseSegment解析类的输出类是MapTask的内部类OldOutputCollector