Mapreduce中Map与Reduce任务的个数

最新推荐文章于 2023-07-10 12:06:44 发布

雾幻

最新推荐文章于 2023-07-10 12:06:44 发布

阅读量1.7w

点赞数 5

分类专栏： hadoop 文章标签： hadoop MapReduce map任务个数 reduce任务个数

本文链接：https://blog.csdn.net/lb812913059/article/details/79898818

版权

hadoop 专栏收录该内容

36 篇文章 6 订阅

订阅专栏

1、Map任务的个数

读取数据产生多少个Mapper？？
Mapper数据过大的话，会产生大量的小文件,过多的Mapper创建和初始化都会消耗大量的硬件资源
Mapper数太小，并发度过小，Job执行时间过长，无法充分利用分布式硬件资源

Mapper数量由什么决定？？
（1）输入文件数目（2）输入文件的大小（3）配置参数这三个因素决定的。
输入的目录中文件的数量决定多少个map会被运行起来，应用针对每一个分片运行一个map，一般而言，对于每一个输入的文件会有一个map split。如果输入文件太大，超过了hdfs块的大小（128M）那么对于同一个输入文件我们会有多余2个的map运行起来。

涉及参数：
mapreduce.input.fileinputformat.split.minsize //启动map最小的split size大小，默认0
mapreduce.input.fileinputformat.split.maxsize //启动map最大的split size大小，默认256M
dfs.block.size//block块大小，默认128M
计算公式：splitSize =  Math.max(minSize, Math.min(maxSize, blockSize))

    下面是FileInputFormat class 的getSplits()的伪代码： 
      num_splits = 0
      for each input file f:
         remaining = f.length
         while remaining / split_size > split_slope:
            num_splits += 1
            remaining -= split_size
      where:
        split_slope = 1.1 分割斜率
        split_size =~ dfs.blocksize 分割大小约等于hdfs块大小

会有一个比例进行运算来进行切片，为了减少资源的浪费
例如一个文件大小为260M，在进行MapReduce运算时，会首先使用260M/128M，得出的结果和1.1进行比较
大于则切分出一个128M作为一个分片，剩余132M，再次除以128，得到结果为1.03，小于1.1
则将132作为一个切片，即最终260M被切分为两个切片进行处理，而非3个切片。

2、reduce任务的个数

Reduce任务是一个数据聚合的步骤，数量默认为1。而使用过多的Reduce任务则意味着复杂的shuffle，并使输出文件的数量激增。

一个job的ReduceTasks数量是通过mapreduce.job.reduces参数设置
也可以通过编程的方式，调用Job对象的setNumReduceTasks()方法来设置
一个节点Reduce任务数量上限由mapreduce.tasktracker.reduce.tasks.maximum设置（默认2）。

可以采用以下探试法来决定Reduce任务的合理数量：
1.每个reducer都可以在Map任务完成后立即执行：
      0.95 * (节点数量 * mapreduce.tasktracker.reduce.tasks.maximum)
2.较快的节点在完成第一个Reduce任务后，马上执行第二个：
      1.75 * (节点数量 * mapreduce.tasktracker.reduce.tasks.maximum)

雾幻

关注

5
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce中Map与Reduce任务的个数

1、Map任务的个数读取数据产生多少个Mapper？？ Mapper数据过大的话，会产生大量的小文件,过多的Mapper创建和初始化都会消耗大量的硬件资源 Mapper数太小，并发度过小，Job执行时间过长，无法充分利用分布式硬件资源Mapper数量由什么决定？？（1）输入文件数目（2）输入文件的大小（3）配置参数这三个因素决定的。输入的目录中文件的数量决定多少个map会...
复制链接

扫一扫