MapReduce的过程(2)

最新推荐文章于 2020-09-18 10:19:30 发布

weixin_34075268

最新推荐文章于 2020-09-18 10:19:30 发布

阅读量100

点赞数

文章标签：大数据数据结构与算法

原文链接：https://yq.aliyun.com/articles/70630

版权

MapReduce的编程思想(1)

MapReduce的过程(2)

1. MapReduce从输入到输出

一个MapReduce的作业经过了input、map、combine、reduce、output五个阶段。
其中combine阶段不一定发生，map输出的中间结果被分发到reduce的过程称为shuffle（数据混洗）。
shuffle阶段会发生copy（复制）和sort（排序）。
Reduce任务默认在Map任务数量完成5%才开始启动。

2. input

HDFS上的文件作为MapReduce的输入，org.apache.hadoop.mapreduce.InputFormat类的子类FileInputFormat类将作为输入的HDFS上的文件切分形成输入分片（InputSplit），每个InputSplit将作为一个Map任务的输入，再将InputSplit解析为键值对。
InputSplit只是对数据逻辑上的分片，不会在磁盘上将文件切分、存储。 - 元数据信息由文件路径、文件开始的位置、文件结束的位置、数据块所在的host4部分组成。
InputSplit的数量=文件大小/InputSplitSize
尽量使InputSplit的大小和块的大小相同，从而提高Map任务计算的数据本地性。

3. Map和中间结果的输出

Map函数产生的输出时，为了保证I/O效率，采取了先写到内存的环形缓存区，并做一次预排序。
每个Map任务都有一个内存缓冲区（默认100M），用于存储map函数的输出。
一旦内存缓存区达到阀值，就会新建一个益处写文件，因此在Map任务写完其最后一个输出记录之后，会有若干个溢出写文件。
在Map任务完成之前，溢出写文件被合并成一个已分区且已排序的输出文件为map输出的中间结果。也是Map任务的输出结果。
combine若指定，会在输出文件写到磁盘之前运行，使得map输出的中间结果更紧凑，使得写到本地磁盘和出给Reduce的数据更少。
Map输出的中间结果存储格式为IFile，支持压缩的存储格式。
Reduce通过HTTP方式得到输出文件的分区。

4. shuffle

shuffle代表map函数产生输出到reduce的消化输入的整个过程。
在shuffle过程中，Map任务就处理的只是一个InputSplit，而Reduce任务处理的是所有Map任务同一个分区的中间结果。
shuffle的Copy阶段
- 当一个Map任务完成时，Reduce任务就开始复制其输出。
shuffle的Sort阶段
- 合并map的输出文件，并维持排序，做归并排序，排序过程循环进行。

5. Reduce及最后结果的输出

Reduce阶段操作实质上就是对经过shuffle处理后的文件调用reduce函数处理，reduce输出一般为HDFS。

6. Sort

MapReduce计算框架中，主要两种排序算法：快速排序和归并排序。
MapReduce过程中，共发生三次排序：
- 第一次排序是在内存缓冲区做的内排序，使用的算法是快速排序。
- 第二次和第三次排序都是文件合并阶段发生的，使用的是归并排序。

7. MapReduce作业进度组成

Map即Map，如map50%reduce0%，表示Map任务已经处理作业输入文件的60%。
Reduce阶段，分为copy、sort、reduce且各占1/3。如，reduce处理了2/3的输入，则整个reduce进度为1/3+1/3+1/3*(2/3)=5/9，因为reduce开始处理输入时，copy和sort已经完成。

MapReduce的编程思想(1)

MapReduce的过程(2)

weixin_34075268

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的过程(2)

MapReduce的编程思想(1)MapReduce的过程(2)1. MapReduce从输入到输出一个MapReduce的作业经过了input、map、combine、reduce、output五个阶段。其中combine阶段不一定发生，map输出的中间结果被分发到reduce的过程称为shuffle（数据混洗）。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。