Map和Reduce 个数如何确定

最新推荐文章于 2023-03-13 15:55:40 发布

原创最新推荐文章于 2023-03-13 15:55:40 发布 · 3.6k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop

hive 同时被 2 个专栏收录

8 篇文章

订阅专栏

Hadoop

2 篇文章

订阅专栏

本文详细解析了Hadoop MapReduce框架中的Map和Reduce任务分配机制，包括Map任务的数量确定、InputSplit的划分逻辑及Reduce任务数量的决定因素。

基于org.apache.hadoop.mapreduce包新版API
一、Map
1、Map个数的确定

map的个数等于split的个数。我们知道，mapreduce在处理大文件的时候，会根据一定的规则，把大文件划分成多个，这样能够提高map的并行度。
划分出来的就是InputSplit，每个map处理一个InputSplit.因此，有多少个InputSplit，就有多少个map数。

2、谁负责划分split
主要是InputFormat。InputFormat类有2个重要的作用：
1）将输入的数据切分为多个逻辑上的InputSplit，其中每一个InputSplit作为一个map的输入。
2）提供一个RecordReader，用于将InputSplit的内容转换为可以作为map输入的k,v键值对。

3.1、计算splitsize
划分split的时候会根据splitsize将大文件切分。
涉及到的java代码如下：

   long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));
   long maxSize = getMaxSplitSize(job);
   long blockSize = file.getBlockSize();
   long splitSize = computeSplitSize(blockSize, minSize, maxSize);
   protected long computeSplitSize(long blockSize, long minSize,
                                  long maxSize) {
    return Math.max(minSize, Math.min(maxSize, blockSize));
  }

minSize :每个split的最小值，默认为1.getFormatMinSplitSize()为代码中写死，固定返回1，除非修改了hadoop的源代码.getMinSplitSize(job)取决于参数mapreduce.input.fileinputformat.split.minsize，如果没有设置该参数，返回1.故minSize默认为1.
maxSize：每个split的最大值，如果设置了mapreduce.input.fileinputformat.split.maxsize，则为该值，否则为Long的最大值。
blockSize ：默认为HDFS设置的文件存储BLOCK大小。注意：该值并不一定是唯一固定不变的。HDFS上不同的文件该值可能不同。故将文件划分成split的时候，对于每个不同的文件，需要获取该文件的blocksize。
splitSize ：根据公式，默认为blockSize 。

3.2、划分split

划分的逻辑如下：

遍历输入目录中的每个文件，拿到该文件
计算文件长度，A:如果文件长度为0，如果mapred.split.zero.file.skip=true，则不划分split ; 如果mapred.split.zero.file.skip为false，生成一个length=0的split .B:如果长度不为0，跳到步骤3
判断该文件是否支持split :如果支持，跳到步骤4;如果不支持，该文件不切分，生成1个split，split的length等于文件长度。
根据当前文件，计算splitSize
判断剩余待切分文件大小/splitsize是否大于SPLIT_SLOP(该值为1.1，代码中写死了) 如果true，切分成一个split，待切分文件大小更新为当前值-splitsize ，再次切分。生成的split的length等于splitsize；如果false 将剩余的切到一个split里，生成的split length等于剩余待切分的文件大小。之所以需要判断剩余待切分文件大小/splitsize,主要是为了避免过多的小的split。比如文件中有100个109M大小的文件，如果splitSize=100M，如果不判断剩余待切分文件大小/splitsize，将会生成200个split，其中100个split的size为100M，而其中100个只有9M，存在100个过小的split。MapReduce首选的是处理大文件，过多的小split会影响性能。

二、Reduce
1.Hive如何确定reduce数：
reduce个数的设定极大影响任务执行效率，不指定reduce个数的情况下，Hive会猜测确定一个reduce个数，基于以下两个设定：
hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G）
hive.exec.reducers.max（每个任务最大的reduce数，默认为999）
计算reducer数的公式很简单N=min(参数2，总输入数据量/参数1)
即，如果reduce的输入（map的输出）总大小不超过1G,那么只会有一个reduce任务；

2.调整reduce个数方法一：
调整hive.exec.reducers.bytes.per.reducer参数的值；
set hive.exec.reducers.bytes.per.reducer=500000000; （500M）

3.调整reduce个数方法二：
直接指定reduce个数
set mapred.reduce.tasks = 15;