hadoop控制mapper的数目

最新推荐文章于 2024-08-28 11:07:44 发布

gushengchang

最新推荐文章于 2024-08-28 11:07:44 发布

阅读量160

点赞数

文章标签：大数据

由于数据上传后，一般以集群的默认dfs.block.size作为块大小。
但是由于我的输入文件小于块大小，但是每一行又需要在mapper中做并行，在默认的情况下，hadoop只会开一个mapper。后来通过看hadoop的源码分析发现有个方法：
在主函数中设置：

job.getConfiguration().setInt("mapred.max.split.size",10000000); // for split and get more mappers

在上述设置后，原来我默认的dfs.block.size是256mb，输入文件大小为120mb，按照10000000字节(不到10mb)来切分，因此得到mapper的任务数目为13。因此可以实现控制mapper的数目的目的。

当然要减少mapper的task的数目只要相应地调大这个值就好。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注