Mapreduce中Shuffle 与 Spark中Shuffle 的区别？

二十六画生的博客

已于 2022-05-30 00:49:12 修改

阅读量723

点赞数 1

于 2021-03-07 16:41:32 首次发布

本文链接：https://blog.csdn.net/u010002184/article/details/114488291

版权

Hive Spark Hadoop MapReduce 专栏收录该内容

162 篇文章 2 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了MapReduce和Spark中Shuffle的区别与相似点。Spark 1.2及之后版本，默认使用SortShuffleManager，并在特定条件下启用byPass机制。两者在Shuffle过程中，都会先将数据写入内存，超出阈值后溢出成多个小文件。相同点包括：每个map任务会产生一个大文件，上游Stage任务数量影响大文件数量。尽管Spark强调内存计算优势，但其Shuffle过程中的中间文件同样会落地到磁盘，而MapReduce则不缓存数据到内存，多次读取同一数据时直接从磁盘加载。

摘要由CSDN通过智能技术生成

Spark 1.2以后默认用SortShuffleManager

不同点：

	Mapreduce Shuffle	Spark Shuffle
map端大文件的索引文件	没有	有
map端输出的文件是否有序	有序	如果启用byPass机制则不会排序，反之会排序
reduce端读取文件	直接读取map输出的大文件	先读取索引文件