Nutch爬取效率非常重要的一点

最新推荐文章于 2024-01-24 01:51:27 发布

tianyangwww

最新推荐文章于 2024-01-24 01:51:27 发布

阅读量291

点赞数

hadoop nutch 爬取效率爬取效率 fetch 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

关于nutch爬取的优化有同猿已经说的很清楚了，有兴趣的可以看看下面这个博客。
http://my.oschina.net/junfrank/blog/290404

除此之外我补充本猿在实践过程中遇见的重要的一点，Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现，不论怎么修改配置文件，在fetch阶段还是只启动了两个map，解决此问题结论如下：
一、修改Generator.java文件，注释掉如下代码（这段代码会吧下文中修改的numSlaves修改为1，具体原因本猿未求甚解，单纯加log得到的结果，有仁猿有结论还望告知本猿）
if ("local".equals(job.get("mapred.job.tracker")) && numLists != 1) {
// override
LOG.info("Generator: jobtracker is 'local', generating exactly one partition.");
numLists = 1;
}
二、编译之后修改crawl脚本中的numSlaves变量，将此变量改为实际的hadoop节点数，这样在fetch阶段就是产生随节点数*2的map数量了。
具体机制原理课参考上面博客，大致就是这么改完后generate时就会产生多个文件了，这样每个文件作输入启动一个map就有多个map启动了。

tianyangwww

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nutch爬取效率非常重要的一点

关于nutch爬取的优化有同猿已经说的很清楚了，有兴趣的可以看看下面这个博客。http://my.oschina.net/junfrank/blog/290404除此之外我补充本猿在实践过程中遇见的重要的一点，Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现，不论怎么修改配置文件，在fetch阶段还是只启动了两个map，解决此问题结论如下：一、修改Gen...
复制链接

扫一扫