Hadoop的shuffle--

最新推荐文章于 2023-02-12 12:20:50 发布

-无妄-

最新推荐文章于 2023-02-12 12:20:50 发布

阅读量540

点赞数

分类专栏： Hadoop学习笔记

Hadoop学习笔记专栏收录该内容

11 篇文章 6 订阅

订阅专栏

Shuffle描述的是数据从Map端到Reduce端的过程，大致分为排序（sort）、溢写（spill）、合并（merge）、拉取拷贝（Copy）、合并排序（merge sort）这几个过程，大体流程如下：
在这里插入图片描述
上图的Map的输出的文件被分片为红绿蓝三个分片，这个分片的就是根据Key为条件来分片的，分片算法可以自己实现，例如Hash、Range等，最终Reduce任务只拉取对应颜色的数据来进行处理，就实现把相同的Key拉取到相同的Reduce节点处理的功能。下面分开来说Shuffle的的各个过程。

Map端做了下图所示的操作：
在这里插入图片描述
1、Map端sort

Map端的输出数据，先写环形缓存区kvbuffer，当环形缓冲区到达一个阀值（可以通过配置文件设置，默认80），便要开始溢写，但溢写之前会有一个sort操作，这个sort操作先把Kvbuffer中的数据按照partition值和key两个关键字来排序，移动的只是索引数据，排序结果是Kvmeta中数据按照partition为单位聚集在一起，同一partition内的按照key有序。

2、spill（溢写）

当排序完成，便开始把数据刷到磁盘，刷磁盘的过程以分区为单位，一个分区写完，写下一个分区，分区内数据有序，最终实际上会多次溢写，然后生成多个文件

3、merge(合并)

spill会生成多个小文件，对于Reduce端拉取数据是相当低效的，那么这时候就有了merge的过程，合并的过程也是同分片的合并成一个片段（segment），最终所有的segment组装成一个最终文件，那么合并过程就完成了,如下图所示

在这里插入图片描述
至此，Map的操作就已经完成，Reduce端操作即将登场