Hadoop中maper和reducer数目的调节

最新推荐文章于 2022-06-18 11:46:19 发布

skywalkerai

最新推荐文章于 2022-06-18 11:46:19 发布

阅读量1.6k

点赞数

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/YWDB2012/article/details/53119858

版权

1 篇文章 0 订阅

订阅专栏

通常情况下mapper的个数和reducer的个数比为4：1，如果，pig脚本中有combiner（group by , foreach）,那个mapper的个数和reducer的个数比可以达到10： 1
如果输入的文件太小，那么需要允许data splits 的combination，combination size的大小通常设置为 256 or 512MB，pig的参数设置为：

-Dpig.splitCombination=”true” \
-Dmapred.min.split.size=$[1024 * 1024 * 128 * 2] \
通常使用default_parallel这样的设置并不明智，可以使用参数reducers.bytes.per.reducer来控制reducer读入文件的大小来控制并行度，通常reducers.bytes.per.reducer的默认值为1GB；reducers.max的默认值为999，通常可以设置的比较小。

-Dpig.exec.reducers.bytes.per.reducer=$[1024 * 1024 * 1024 * 2] \
-Dpig.exec.reducers.max=50 \