Hadoop中的shuffle过程

最新推荐文章于 2024-04-21 23:13:45 发布

景岁

最新推荐文章于 2024-04-21 23:13:45 发布

阅读量1.4k

点赞数

分类专栏： Hadoop 文章标签： hadoop shuffle

本文链接：https://blog.csdn.net/nianyl/article/details/45218487

版权

Hadoop 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1. 根据官方图片可以看出，Map spill是分区排序的，多个spill文件会做一个归并排序，形成一个唯一的分区排序的最终文件。这里的归并排序调用的是Merge类的merge方法，注意hadoop的归并和排序不是两个分开的过程，而是一个过程，在归并的同时进行了排序。

2. reduce过程会把这些由map输出的中间文件拷贝到本地，然后生成一个或者几个Segment类的实例（官方图reduce端中左起第一部分应该就是这些segment），以下我们称这些实例为segment。Segment类封装了这些中间数据，并且提供了一些针对这些中间数据的操作，比如读取记录等。在reduce端，这些中间数据可以存在内存中，也可以存在硬盘中。同时，系统还会启动两个merge（归并）线程，一个是针对内存中的segment进行归并，一个是针对硬盘中的segment进行归并（官方图reduce端中左起第二部分应该就是归并后的segment，从后面可以看到是以小根堆的形式）。merge过程实际上就是调用了Merge类的merge方法。

3. 针对segment排序的过程是以segment为单位的，而不是以segment中存储的记录（record）为单位的。而这里排序过程中对两个segment对象的比较是对segment中存储的第一个记录的键的比较。现在，我们已经得到了一个以segment为单位，以segment中第一个记录的键为比较依据的小根堆，至此在系统中所谓的sort阶段就已经结束了

4. 接下来，系统会不停的从这个小根堆里取出位于根节点的segment的第一个记录交给reduce函数处理。注意，因为该小根堆是以每一个segment的第一个记录的键为排序依据的，所以根节点的第一个记录的键一定是所有segment中第一个记录的键的最小值。由于segment存储的是map输出的数据，而这些数据在传送给reduce之前已经经过排序（升序），所以，每个segment的第一个记录的键一定是该segment中所有键的最小值。从而根segment的第一个记录的键一定是所有记录的键的最小值。这里实际就是利用了归并排序。在从根segment中取出第一个记录之后，系统还会对该小根堆进行调整，以保证小根堆的性质。

Hadoop怎么保证不同的reduce输出还是排好序的？：使用Partitioner控制，比如可以使分区i中所有的键都小于分区i+1中的键。

2015.10.09新增：

1 Map过程中，每次缓冲区写出都会生成一个Spill文件，也就是官方图中Map部分左数第四部分。

景岁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop中的shuffle过程

1. 根据官方图片可以看出，Map spill是分区排序的，多个spill文件会做一个归并排序，形成一个唯一的分区排序的最终文件。这里的归并排序调用的是Merge类的merge方法，注意hadoop的归并和排序不是两个分开的过程，而是一个过程，在归并的同时进行了排序。2. reduce过程会把这些由map输出的中间文件拷贝到本地，然后生成一个或者几个Segment类的实例（官方图reduce端
复制链接

扫一扫