调整map个数

最新推荐文章于 2022-09-06 16:20:11 发布

weixin_34384557

最新推荐文章于 2022-09-06 16:20:11 发布

阅读量496

点赞数

文章标签： python 大数据

原文链接：https://my.oschina.net/puwenchao/blog/720978

版权

2019独角兽企业重金招聘Python工程师标准>>>

1.split大小

1.1 split大小计算

minSize=max{minSplitSize,mapred.min.split.size} （minSplitSize大小默认为1B）

maxSize=mapred.max.split.size（未配置文件中指定时为Long.MAX_VALUE）

splitSize=max{minSize,min{maxSize,blockSize}}

注意：blockSize为文件在hdfs中的块大小

1.2 配置方式

mapred-site.xml: mapred.min.split.size、mapred.max.split.size

hdfs-site.xml: blockSize

2.map个数调整

2.1 减少Mapper数量

输入文件size巨大：

这种情况可以通过增大每个mapper的input size，即增大minSize或blockSize来减少所需的mapper的数量。增大blockSize通常不可行，因为当HDFS被hadoop namenode -format之后，blockSize就已经确定了（由格式化时dfs.block.size决定），如果要更改blockSize，需要重新格式化HDFS。所以通常情况下只能通过增大minSize，即增大mapred.min.split.size的值。

输入大量小文件：

所谓小文件就是单个文件的size远小于blockSize。这种情况通过增大mapred.min.split.size不可行，需要使用FileInputFormat衍生的CombineFileInputFormat将多个input path合并成一个InputSplit送给mapper处理，从而减少mapper的数量。具体细节稍后会更新并展开。

2.2 增加Mapper数量

增加mapper的数量，可以通过减小每个mapper的输入做到，即减小blockSize或者减小mapred.min.split.size的值。增大blockSize通常不可行，所以一般减小mapred.min.split.size的值。

转载于:https://my.oschina.net/puwenchao/blog/720978

weixin_34384557

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
调整map个数

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。