如何在Hadoop中控制Map的数量?

最新推荐文章于 2023-04-10 19:10:39 发布

程序猿广坤

最新推荐文章于 2023-04-10 19:10:39 发布

阅读量840

点赞数 1

分类专栏：大数据编程语言 it资讯人工智能文章标签：大数据人工智能编程语言程序员

本文链接：https://blog.csdn.net/bigagag/article/details/90169041

版权

在Hadoop中，默认Mapper数量由输入文件大小和个数决定，但可以通过设置minSplitSize或使用CombineFileInputFormat减少Mapper。当面临Mapper数量过多问题时，可以增大mapred.min.split.size或使用CombineFileInputFormat合并小文件。反之，减小Mapper数量则需减小blockSize或mapred.min.split.size。

摘要由CSDN通过智能技术生成

Mapper的数量在默认情况下不可直接控制干预，因为Mapper的数量由输入的大小和个数决定。在默认情况下，最终input占据了多少block，就应该启动多少个Mapper。如果输入的文件数量巨大，但是每个文件的size都小于HDFS的blockSize，那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block)，那么很可能造成启动的Mapper数量超出限制而导致崩溃。这些逻辑确实是正确的，但都是在默认情况下的逻辑。其实如果进行一些客户化的设置，就可以控制了。

在Hadoop中，设置Map task的数量不像设置Reduce task数量那样直接，即：不能够通过API直接精确的告诉Hadoop应该启动多少个Map task。

你也许奇怪了，在API中不是提供了接口org.apache.hadoop.mapred.JobConf.setNumMapTasks(int n)吗?这个值难道不可以设置Map task的数量吗?这个API的确没错，在文档上解释”Note: This is only a hint to the framework.“，即这个值对Hadoop的框架来说仅仅是个提示，不起决定性的作用。也就是说，即便你设置了，也不一定得到你想要的效果。

1、InputFormat介绍

在具体设置Map task数量之前，非常有必要了解一下与Map-Reduce输入相关的基础知识。

这个接口(org.apache.hadoop.mapred.InputFormat)描述了Map-Reduce job的输入规格说明(input-specification)，它将所有的输入文件分割成逻辑上的InputSplit，每一个InputSplit将会分给一个单独的mapper;它还提供RecordReader的具体实现，这个Reader从逻辑的InputSplit上获取input rec