MapReduce 的 shuffle 与 spark的 shuffle 有什么区别？

最新推荐文章于 2024-07-06 10:20:17 发布

Logan_addoil

最新推荐文章于 2024-07-06 10:20:17 发布

阅读量631

点赞数 16

分类专栏：大数据学习之旅文章标签： mapreduce spark 大数据

本文链接：https://blog.csdn.net/Logan_addoil/article/details/135089139

版权

大数据学习之旅专栏收录该内容

23 篇文章 0 订阅

订阅专栏

MapReduce 的shuffle
在Map端的shuffle过程是对Map的结果进行分区、排序、分割，然后将属于同一划分（分区）的输出合并在一起并写在磁盘上，最终得到一个分区有序的文件。
主要是：Partition、Collector、Sort、Spill、Merge几个阶段。

在Reduce端，shuffle主要分为复制Map输出、排序合并两个阶段。
主要是：Copy、Merge、Reduce几个阶段。
https://blog.csdn.net/u014374284/article/details/49205885

Spark的shuffle
spark由于是一条链路不落盘的RDD开发模式，所以Spark的shuffle分为shuffle的读操作和shuffle的写操作。

1.功能上，MR的shuffle和Spark的shuffle是没啥区别的，都是对Map端的数据进行分区，要么聚合排序，要么不聚合排序，然后Reduce端或者下一个调度阶段进行拉取数据，完成map端到reduce端的数据传输功能。
2.方案上，有很大的区别，MR的shuffle是基于合并排序的思想，在数据进入reduce端之前，都会进行sort，为了方便后续的reduce端的全局排序，而Spark的shuffle是可选择的聚合，特别是1.2之后，需要通过调用特定的算子才会触发排序聚合的功能。
3.流程上，MR的Map端和Reduce区分非常明显，两块涉及到操作也是各司其职，而Spark的RDD是内存级的数据转换，不落盘，所以没有明确的划分，只是区分不同的调度阶段，不同的算子模型。
4.数据拉取，MR的reduce是直接拉去Map端的分区数据，而Spark是根据索引读取，而且是在action触发的时候才会拉去数据。
5.HashShuffle，虽然MR和shuffle读都会进行HashShuffle，但是如果在shuffle读没有combine操作的时候同时分区数少于设定的阈值，则不会在HashMap的时候预先对分区中所有的健值对进行merge和sort，从而省下了排序过程