MapReduce详细流程

最新推荐文章于 2024-07-24 08:30:24 发布

程序消消乐

最新推荐文章于 2024-07-24 08:30:24 发布

阅读量753

点赞数 2

分类专栏： Hadoop 文章标签： hadoop mapreduce big data

本文链接：https://blog.csdn.net/m0_52835696/article/details/127200812

版权

Hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

MapReduce大致流程图

在这里插入图片描述

MapReducer详细过程

在这里插入图片描述
大致说明Shuffle前的过程：
1）客户端在submit()前，获取待处理的文件信息（即待处理的数据，包括所在的切片信息）和Driver的相关参数配置信息。形成任务分配规划。
2）然后，客户端开始提交Job(一般是提交到Yarn进行资源管理)
3）Yarn计算出所需MapTask的数量然后用Marappmast和NodeManager进行资源分配管理。
4）MapTask首先根据切片信息读取待处理的数据文件（InputFormat阶段），经过Mapper的方法处理，将处理后的K-V兼职对给outPutCollect,然后开始进入Shuffle阶段。

InputFormat阶段

看博主的另一篇博客MapReduce过程中的InputForm切片部分的入门详解（包含一点源码分析和案例分析）

Shuffle机制

在这里插入图片描述
1）此时，Mapper阶段已经执行完毕，Mapper的输入键值对会先被打上分区的标记（分区是为了方便后续的分布式排序和Reducer阶段的ReduerTask）。然后进入环形缓冲区，
2）在该环形缓冲区中数据中原本的K-V键值对会被附上响应的索引（后文介绍）。索引和k-v键值对两者会按照两个不同的方向写入环形缓冲区中，（如图所示）。当达到缓冲区的80%后，就会开始溢出（即将缓冲区的数据写入磁盘）。
3）在磁盘中也是以文件的形式暂时储存，其中多个分区可能会在同一个文件。每个分区中的数据在溢出之前已经经过快排算法进行了排序（该排序只是针对各自分区内的数据），溢出形成的文件已经是分区内有序的。
4）如果有多个溢出文件，则会被合并成大的溢出文件（此时会用到归并排序算法，保证合并后，相同的分区的数据仍然有序）
5）经过合并后的溢出文件会进行压缩，此时才是真正Mapper输入K-V键值对。此时真正意义上的Shuffle阶段已经结束。
注意
（1）Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。
（2）缓冲区的大小可以通过参数调整，参数：mapreduce.task.io.sort.mb默认100M。

Shuffle机制中环形缓冲区的数据格式

在这里插入图片描述

名称	作用
index	存储位置索引
partition	分区编号
keystart	Key的起始位置
valstart	value的起始位置

分区内的keystart和valstart用于分区中的快排移位操作

Reducer阶段操作

在这里插入图片描述
1)前面，经过Mapper和Shuffle阶段后，分区内的数据已经排好序了，此时ReducerTask开始根据分区号进行拉取****（注意是ReducerTask主动拉取，不是MapTask自己推）
2)因为此时拉取的数据来自多个MapTask,虽然分区号相同，但其实内部数据不同的（即每个MapTask的分区排好序了，但ReducerTask拉取的数据是来自不同的MapTask），故ReducerTask还要在进行归并排序进行处理。
3）归并后的数据经过程序员自己写的Reducer方法，形成最终的所期望的数据通过OutputFormat方法开始输出到磁盘。