如何在hadoop中控制map的个数

最新推荐文章于 2023-03-02 21:53:33 发布

jediael_lu

最新推荐文章于 2023-03-02 21:53:33 发布

阅读量817

点赞数

分类专栏： X.1大数据

X.1大数据专栏收录该内容

103 篇文章 0 订阅

订阅专栏

hadooop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。

为了方便介绍，先来看几个名词：

block_size : hdfs的文件块大小，默认为64M，可以通过参数dfs.block.size设置

total_size : 输入文件整体的大小

input_file_num : 输入文件的个数

（1）默认map个数

如果不进行任何设置，默认的map个数是和blcok_size相关的。

default_num = total_size / block_size;

（2）期望大小

可以通过参数 mapred.map.tasks来设置程序员期望的map个数，但是这个个数只有在大于default_num的时候，才会生效。

goal_num = mapred.map.tasks;

（3）设置处理的文件大小

可以通过mapred.min.split.size 设置每个task处理的文件大小，但是这个大小只有在大于 block_size的时候才会生效。

split_size = max( mapred.min.split.size, block_size );

split_num = total_size / split_size;

（4）计算的map个数

compute_map_num = min(split_num, max(default_num, goal_num))

除了这些配置以外，mapreduce还要遵循一些原则。 mapreduce的每一个map处理的数据是不能跨越文件的，也就是说min_map_num >= input_file_num。所以，最终的map个数应该为：

final_map_num = max(compute_map_num, input_file_num)

经过以上的分析，在设置map个数的时候，可以简单的总结为以下几点：

（1）如果想增加map个数，则设置mapred.map.tasks 为一个较大的值。

（2）如果想减小map个数，则设置mapred.min.split.size 为一个较大的值。

（3）如果输入中有很多小文件，依然想减少map个数，则需要将小文件merger为大文件，然后使用准则2。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何在hadoop中控制map的个数

hadooop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。为了方便介绍，先来看几个名词：block_size : hdfs的文件块大小，默认为64M，可以通过参
复制链接

扫一扫

专栏目录

jediael_lu CSDN认证博客专家 CSDN认证企业博客

码龄15年

366: 原创

3万+: 周排名

34万+: 总排名

234万+: 访问

: 等级

1万+: 积分

650: 粉丝

373: 获赞

178: 评论

773: 收藏

私信

关注

热门文章

分类专栏

最新评论

MMDB ip地址库操作
fanglanhaha: 有离线的mmdb文件，如何解析里面的全部ip数据呀
Java Object.hashCode()方法
Tridu33: 所有最佳实现就是第三种是吧
Java Object.hashCode()方法
Sea Bean: 作者你还有使用CSDN吗？如果你看到了希望咱们可以探讨一下。
Java Object.hashCode()方法
Sea Bean: hashCode() 返回的值不一定用于表示对象在内存的位置，具体可以参考一下OpenJDK里面的源码实现：[synchronizer.cpp](http://hg.openjdk.java.net/jdk7/jdk7/hotspot/file/9b0ca45cd756/src/share/vm/runtime/synchronizer.cpp)。可以知道OpenJDK一共实现了好几种计算哈希码的策略，其中hashCode == 4 时直接使用内存地址进行计算。官方更是说明在未来版本中很大概率会默认使用最后一种策略即xor-shift模式。因此，hashCode()返回的并不一定是对象的内存地址，具体应该取决于运行时库和JVM的选择和实现。
最大似然估计与损失函数
momo儿: 分享技术,不错哦

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。