org.apache.nutch.parse.ParseSegment 解析数据段,快速理解开发使用nutch的重要类。
map函数实现比较简单,读取Content类并解析。reduce也只是简单的将map计算完毕的返回。
巧妙之处在job.setOutputFormat(ParseOutputFormat.class);中
ParseOutputFormat 对象将reduce返回的Parse对象解析分别存储,理解了这个地方在随后的index中读取数据的方式就很容易理解了。
org.apache.nutch.parse.ParseSegment 解析数据段,快速理解开发使用nutch的重要类。
map函数实现比较简单,读取Content类并解析。reduce也只是简单的将map计算完毕的返回。
巧妙之处在job.setOutputFormat(ParseOutputFormat.class);中
ParseOutputFormat 对象将reduce返回的Parse对象解析分别存储,理解了这个地方在随后的index中读取数据的方式就很容易理解了。