Nutch爬取效率非常重要的一点

关于nutch爬取的优化有同猿已经说的很清楚了,有兴趣的可以看看下面这个博客。
http://my.oschina.net/junfrank/blog/290404

除此之外我补充本猿在实践过程中遇见的重要的一点,Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现,不论怎么修改配置文件,在fetch阶段还是只启动了两个map,解决此问题结论如下:
一、修改Generator.java文件,注释掉如下代码(这段代码会吧下文中修改的numSlaves修改为1,具体原因本猿未求甚解,单纯加log得到的结果,有仁猿有结论还望告知本猿)
if ("local".equals(job.get("mapred.job.tracker")) && numLists != 1) {
// override
LOG.info("Generator: jobtracker is 'local', generating exactly one partition.");
numLists = 1;
}
二、编译之后修改crawl脚本中的numSlaves变量,将此变量改为实际的hadoop节点数,这样在fetch阶段就是产生随节点数*2的map数量了。
具体机制原理课参考上面博客,大致就是这么改完后generate时就会产生多个文件了,这样每个文件作输入启动一个map就有多个map启动了。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值