浅析二·Hadoop核心架构之MapReduce浅析

最新推荐文章于 2022-10-21 09:00:00 发布

一尺月光寒

最新推荐文章于 2022-10-21 09:00:00 发布

阅读量605

点赞数

分类专栏：大数据学习之路·XY记文章标签： MapReduce Shuffle 环形缓冲区溢写 Hadoop核心架构

本文链接：https://blog.csdn.net/u014414323/article/details/80652028

版权

大数据学习之路·XY记专栏收录该内容

34 篇文章 7 订阅

订阅专栏

XY个人笔记

序

 
       上一篇把自己对HDFS的理解记录了一下，开始这两篇是计划写在一起的，后来因为这个MapReduce理解起来相对于HDFS是有一点点难度的就分开了，然后不断的反复的查找看理解，但是又不知道怎么继续写了。参考一些文章来做一下记录和个人的理解吧。 
 

一、MapReduce

Google的那篇MapReduce论文里说：Our abstraction is inspired by the map and reduce primitives present in Lisp and many other functional languages。这句话提到了MapReduce思想的渊源，大致意思是，MapReduce的灵感来源于函数式语言中的内置函数Map和Reduce。（小广告^_^：在浅析一·Hadoop核心架构之HDFS浅析里有论文中英文版下载链接）

Map（展开）”就是将一个任务分解成为多个任务，“Reduce”就是将分解后多任务处理的结果汇总起来，得出最后的分析结果。在分布式系统中，机器集群就可以看作硬件资源池，将并行的任务拆分，然后交由每一个空闲机器资源去处理，能够极大地提高计算效率，同时这种资源无关性，对于计算集群的扩展无疑提供了最好的设计保证。任务分解处理以后，那就需要将处理以后的结果再汇总起来，这就是Reduce要做的工作。

这样我们就可以把MapReduce理解为，把一堆杂乱无章的数据按照某种特征归纳起来，然后处理并得到最后的结果。Map面对的是杂乱无章的互不相关的数据，它解析每个数据，从中提取出key和value，也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后，在Reduce阶段看到的都是已经归纳好的数据了，在此基础上我们可以做进一步的处理以便得到结果。这就回到了最初，终于知道MapReduce为何要这样设计。

上图是论文里给出的流程图。展示了Google MapReduce 实现中操作的全部流程，当用户调用MapReduce 函数时，将发生下面一系列的动作（下面的序号和上图的序号一一对应）：

1.MapReduce库先把user program的输入文件划分为M份（M为用户定义），每一份通常有16MB到64MB，如图左方所示分成了split0~4；然后使用fork将用户进程拷贝到集群内其它机器上。

2.user program的副本中有一个称为master，其余称为worker，master是负责调度的，为空闲worker分配作业（Map作业或者Reduce作业），worker的数量也是可以由用户指定的。

3.被分配了Map作业的worker，开始读取对应分片的输入数据，Map作业数量是由M决定的，和split一一对应；Map作业从输入数据中抽取出键值对，每一个键值对都作为参数传递给map函数，map函数产生的中间键值对被缓存在内存中。

4.缓存的中间键值对会被定期写入本地磁盘，而且被分为R个区，R的大小是由用户定义的，将来每个区会对应一个Reduce作业；这些中间键值对的位置会被通报给master，master负责将信息转发给Reduce worker。

5.master通知分配了Reduce作业的worker它负责的分区在什么位置（肯定不止一个地方，每个Map作业产生的中间键值对都可能映射到所有R个不同分区），当Reduce worker把所有它负责的中间键值对都读过来后，先对它们进行排序，使得相同键的键值对聚集在一起。因为不同的键可能会映射到同一个分区也就是同一个Reduce作业（谁让分区少呢），所以排序是必须的。

6.reduce worker遍历排序后的中间键值对，对于每个唯一的键，都将键与关联的值传递给reduce函数，reduce函数产生的输出会添加到这个分区的输出文件中。

7.当所有的Map和Reduce作业都完成了，master唤醒正版的user program，MapReduce函数调用返回user program的代码。

在成功完成任务之后，MapReduce的输出存放在R个输出文件中（对于每个Reduce产生一个输出文件，文件名由用户指定）。一般情况下，用户不需要将这R个输出文件给合并成一个文件，他们经常把这些文件作为另外一个MapReduce 的输入，或者在另外一个可以处理多个分割文件的分布式应用中使用。

整个过程中，输入数据是来自底层分布式文件系统（HDFS）的，中间数据是放在本地文件系统的，最终输出数据是写入底层分布式文件系统（HDFS）的。而且我们要注意Map/Reduce作业和map/reduce函数的区别：Map作业处理一个输入数据的分片，可能需要调用多次map函数来处理每个输入键值对；Reduce作业处理一个分区的中间键值对，期间要对每个不同的键调用一次reduce函数，Reduce作业最终也对应一个输出文件。

上诉流程分为三个阶段。第一阶段是准备阶段，包括1、2，主角是MapReduce库，完成拆分作业和拷贝用户程序等任务；第二阶段是运行阶段，包括3、4、5、6，主角是用户定义的map和reduce函数，每个小作业都独立运行着；第三阶段是扫尾阶段，这时作业已经完成，作业结果被放在输出文件里，等待处理。

在Map前还可能会对输入的数据有Split（分割）的过程，保证任务并行效率，在Map之后还会有Shuffle（混合）的过程，对于提高Reduce的效率以及减小数据传输的压力有很大的帮助。Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce，Shuffle是必须要了解的。

Shuffle

shuffle字面理解的意思是洗牌、混乱，而在MapReduce中呢shuffle是有代表排序，重新整理的意思。从map task端整理数据到reduce 端。实际上，从Map Task任务中的map()方法中的最后一步调用即输出中间数据开始，一直到Reduce Task任务开始执行reduce()方法结束，这一中间处理过程就被称为MapReduce的Shuffle。Shuffle过程分为两个阶段：Map端的shuffle阶段和Reduce端的Shuffle阶段。如图：

从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。Shuffle横跨Map端和Reduce端，在Map端包括Spill过程，在Reduce端包括copy和sort过程，如图所示：

Spill过程包括输出、排序、溢写、合并等步骤，如图所示：

一、Collect阶段

每个Map任务不断地以<key, value>对的形式把数据输出到在内存中构造的一个环形数据结构中。使用环形数据结构是为了更有效地使用内存空间，在内存中放置尽可能多的数据。这个数据结构其实就是个字节数组，我们称他为环形缓冲区（Kvbuffer），同时还放置了一些索引数据，给放置索引数据的区域起了一个Kvmeta的别名，在Kvbuffer的一块区域上穿了一个IntBuffer的马甲。<key, value>数据区域和索引数据区域在Kvbuffer中是相邻不重叠的两个区域，用一个分界点来划分两者，分界点不是亘古不变的，而是每次Spill之后都会更新一次。初始的分界点是0，<key, value>数据的存储方向是向上增长，索引数据的存储方向是向下增长。

但是环形缓冲区的大小总会有不够用的时候（虽然Kvbuffer可以通过参数设置，该缓冲区的默认大小是100MB，可以通过参数io.sort.mb来调整其大小），当所设置的大小用完的时候。把数据从内存刷到磁盘上再接着往内存写数据，把Kvbuffer中的数据刷到磁盘上的过程就叫溢写（Spill），名如其字，当内存中的数据满了就自动地spill到具有更大空间的磁盘。那么什么时候开始这个溢写操作呢？肯定不会刚写入就直接进行，也不会用的满满的一点都写不进去了才开始溢写。这就要有个度了，这个度呢就是80%，也就是当我们的环形缓冲区（Kvbuffer）用了80%的时候开始spill，在spill的同时，Map任务还能继续往内存中写数据，完美！~

在溢写进行的同时还会对数据有一个排序的过程，即：sort

二、Sort阶段

先把Kvbuffer中的数据按照partition值和key两个关键字升序排序，移动的只是索引数据，排序结果是Kvmeta中数据按照partition为单位聚集在一起，同一partition内的按照key有序。

先按<key,value,partition>中的partition分区号排序，然后再按key排序，再必要的时候，比如说配置了Combiner并且当前系统的负载不是很高的情况下会将有相同partition分区号和key的数据做聚合操作，还有如果设置而对中间数据做压缩的配置则还会做压缩操作。

三、Spill阶段

当缓冲区的使用率达到一定阀值后，触发一次“溢写”操作，将环形缓冲区中的部分数据写到Linux的本地磁盘。需要特别注意的是，在将数据写磁盘之前，先要对要写磁盘的数据进行一次排序操作（sort），Spill线程为这次Spill过程创建一个磁盘文件：从所有的本地目录中轮训查找能存储这么大空间的目录，找到之后在其中创建一个类似于“spill12.out”的文件。Spill线程根据排过序的Kvmeta挨个partition的把<key, value>数据吐到这个文件中，一个partition对应的数据吐完之后顺序地吐下个partition，直到把所有的partition遍历完。一个partition在文件中对应的数据也叫段(segment)。

所有的partition对应的数据都放在这个文件里，是顺序存放的。一个partition对应一个三元组：起始位置、原始数据长度、压缩之后的数据长度。然后把这些索引信息存放在内存中，如果内存中放不下了，后续的索引信息就需要写到磁盘文件中了：从所有的本地目录中查找能存储这么大空间的目录，找到之后在其中创建一个类似于“spill12.out.index”的文件，文件中不光存储了索引数据，还存储了crc32的校验数据。(spill12.out.index不一定在磁盘上创建，如果内存（默认1M空间）中能放得下就放在内存中，即使在磁盘上创建了，和spill12.out文件也不一定在同一个目录下。)

每一次Spill过程就会最少生成一个out文件，有时还会生成index文件，Spill的次数也烙印在文件名中。索引文件和数据文件的对应关系如下图所示：

四、Combine阶段

待Map任务的所有数据都处理完后，会对任务产生的所有中间数据文件做一次合并操作（Combine），以确保一个Map Task最终只生成一个中间数据文件。

五、Copy阶段。

Reduce任务通过HTTP向各个Map任务拖取它所需要的数据。每个节点都会启动一个常驻的HTTP server，其中一项服务就是响应Reduce拖取Map数据。当有MapOutput的HTTP请求过来的时候，HTTP server就读取相应的Map输出文件中对应这个Reduce部分的数据通过网络流输出给Reduce。

Reduce任务拖取某个Map对应的数据，如果在内存中能放得下这次数据的话就直接把数据写到内存中。Reduce要向每个Map去拖取数据，在内存中每个Map对应一块数据，当内存中存储的Map数据占用空间达到一定程度的时候，开始启动内存中merge，把内存中的数据merge输出到磁盘上一个文件中。

如果在内存中不能放得下这个Map的数据的话，直接把Map数据写到磁盘上，在本地目录创建一个文件，从HTTP流中读取数据然后写到磁盘，使用的缓存区大小是64K。拖一个Map数据过来就会创建一个文件，当文件数量达到一定阈值时，开始启动磁盘文件merge，把这些文件合并输出到一个文件。

有些Map的数据较小是可以放在内存中的，有些Map的数据较大需要放在磁盘上，这样最后Reduce任务拖过来的数据有些放在内存中了有些放在磁盘上，最后会对这些来一个全局合并。

默认情况下，当整个MapReduce作业的所有已执行完成的Map Task任务数超过Map Task总数的5%后，JobTracker便会开始调度执行Reduce Task任务。然后Reduce Task任务默认启动mapred.reduce.parallel.copies(默认为5）个MapOutputCopier线程到已完成的Map Task任务节点上分别copy一份属于自己的数据。这些copy的数据会首先保存的内存缓冲区中，当内冲缓冲区的使用率达到一定阀值后，则写到磁盘上。

六、Merge阶段

在远程copy数据的同时，Reduce Task在后台启动了两个后台线程对内存和磁盘上的数据文件做合并操作，以防止内存使用过多或磁盘生的文件过多。

Map任务如果输出数据量很大，可能会进行好几次Spill，out文件和Index文件会产生很多，分布在不同的磁盘上。最后把这些文件进行合并的merge过程闪亮登场。从所有的本地目录上扫描得到产生的Spill文件，然后把路径存储在一个数组里。同时从所有的本地目录上扫描得到Index文件，然后把索引信息存储在一个列表里。（环形缓冲区kvbuffer这个土豪已经不再被使用了，此时可以回收了，也就有内存空间来装这些数据了）接着为merge过程创建一个叫file.out的文件和一个叫file.out.Index的文件用来存储最终的输出和索引。

一个partition一个partition的进行合并输出。对于某个partition来说，从索引列表中查询这个partition对应的所有索引信息，每个对应一个段插入到段列表中。也就是这个partition对应一个段列表，记录所有的Spill文件中对应的这个partition那段数据的文件名、起始位置、长度等等。

然后对这个partition对应的所有的segment进行合并，目标是合并成一个segment。当这个partition对应很多个segment时，会分批地进行合并：先从segment列表中把第一批取出来，以key为关键字放置成最小堆，然后从最小堆中每次取出最小的<key, value>输出到一个临时文件中，这样就把这一批段合并成一个临时的段，把它加回到segment列表中；再从segment列表中把第二批取出来合并输出到一个临时segment，把其加入到列表中；这样往复执行，直到剩下的段是一批，输出到最终的文件中。最终的索引数据仍然输出到Index文件中。

七、Merge Sort阶段

在合并的同时，也会做排序操作。由于各个Map Task已经实现对数据做过局部排序，所以Reduce Task只需要做一次归并排序即可保证copy数据的整体有序性。执行完合并与排序操作后，Reduce Task会将数据交给reduce()方法处理。这里使用的Merge和Map端使用的Merge过程一样。Map的输出数据已经是有序的，Merge进行一次合并排序，所谓Reduce端的sort过程就是这个合并的过程。一般Reduce是一边copy一边sort，即copy和sort两个阶段是同时进行而不是完全分开的。

Reduce端的Shuffle过程至此结束。

参考资料：
http://hadoop.apache.org/docs/stable/
http://data.qq.com/article?id=543

一尺月光寒

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
浅析二·Hadoop核心架构之MapReduce浅析

XY个人笔记序上一篇把自己对HDFS的理解记录了一下，开始这两篇是计划写在一起的，后来因为这个MapReduce理解起来相对于HDFS是有一点点难度的就分开了，然后不断的反复的查找看理解，但是又不知道怎么继续写了。参考别人的文章和图片来做一下记录和个人的理解吧。一、MapReduce Google的那篇MapReduce论文里说：Our abstraction is inspire...
复制链接

扫一扫

专栏目录