Nutch1.3集成Solr3.4网页快照功能实现（二）

最新推荐文章于 2023-03-13 22:30:46 发布

weixin_34250434

最新推荐文章于 2023-03-13 22:30:46 发布

阅读量84

点赞数

原文链接：https://yq.aliyun.com/articles/478191

版权

FileInputFormat.addInputPath(job, new Path(segment, ParseText.DIR_NAME));中仅处理了Segment文件夹下“parse_data”与“parse_text”中的内容，对于原始的网页快照文件夹(“content”)并没有进行处理，Segment文件夹结构如下所示：

我们在这里要做的就是将“content”文件夹加入处理方法中，修改后的方法如下：

public static void initMRJob(Path crawlDb, Path linkDb,

Collection<Path> segments,

JobConf job) {

final String DIR_CACHE = "content";

LOG.info("IndexerMapReduce: crawldb: " + crawlDb);

LOG.info("IndexerMapReduce: linkdb: " + linkDb);

for (final Path segment : segments) {

LOG.info("IndexerMapReduces: adding segment: " + segment);

FileInputFormat.addInputPath(job, new Path(segment, CrawlDatum.FETCH_DIR_NAME));

FileInputFormat.addInputPath(job, new Path(segment, CrawlDatum.PARSE_DIR_NAME));

FileInputFormat.addInputPath(job, new Path(segment, ParseData.DIR_NAME));

FileInputFormat.addInputPath(job, new Path(segment, ParseText.DIR_NAME));

FileInputFormat.addInputPath(job, new Path(segment, DIR_CACHE));

}

FileInputFormat.addInputPath(job, new Path(crawlDb, CrawlDb.CURRENT_NAME));

FileInputFormat.addInputPath(job, new Path(linkDb, LinkDb.CURRENT_NAME));

job.setInputFormat(SequenceFileInputFormat.class);

job.setMapperClass(IndexerMapReduce.class);

job.setReducerClass(IndexerMapReduce.class);

job.setOutputFormat(IndexerOutputFormat.class);

job.setOutputKeyClass(Text.class);

job.setMapOutputValueClass(NutchWritable.class);

job.setOutputValueClass(NutchWritable.class);

}

本文转自william_xu 51CTO博客，原文链接：http://blog.51cto.com/williamx/722715，如需转载请自行联系原作者

weixin_34250434

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。