hadoop2.0如何控制map的个数

最新推荐文章于 2022-02-14 17:14:14 发布

qqpy789

最新推荐文章于 2022-02-14 17:14:14 发布

阅读量398

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qqpy789/article/details/72858513

版权

有些场景,需要我们对map的个数进行控制.比如说:我的集群中的节点多,而且计算复杂,这时候,我需要将整体的并发量提高上去,这时候就需要进行控制map的个数了.

如何控制呢?我们先引入一个公式

  splitsize = Math.max(minSize, Math.min(maxSize, blockSize)); 

这个里面的splitsize就是每个split的大小,我们只要控制这个大小即可,这个值变小,则map数量会上升,反之亦然

minSize是由配置项mapreduce.input.fileinputformat.split.minsize 默认值为1 控制的

maxsize是由配置项mapreduce.input.fileinputformat.split.maxsize 默认值为long的最大值

blocksize就没啥好说的了.

所以只需要控制着几个配置项就能达到控制map数量问题

具体源码可以参考 fileinputformat类

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop2.0如何控制map的个数

有些场景,需要我们对map的个数进行控制.比如说:我的集群中的节点多,而且计算复杂,这时候,我需要将整体的并发量提高上去,这时候就需要进行控制map的个数了.如何控制呢?我们先引入一个公式splitsize = Math.max(minSize, Math.min(maxSize, blockSize));这个里面的splitsize就是每个split的大小,我们只要控制这个大小即
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。