Spark-Part1.大数据生态圈中的Shuffle过程

最新推荐文章于 2023-09-13 22:32:10 发布

笠泽之畔

最新推荐文章于 2023-09-13 22:32:10 发布

阅读量293

点赞数 1

分类专栏： Spark系列-什么是shuffle 文章标签：大数据 spark 分布式 hadoop

本文链接：https://blog.csdn.net/qq_42104423/article/details/117234337

版权

本文探讨了大数据处理中的关键步骤——Shuffle。 Shuffle是MapReduce和Spark中的重要阶段，涉及数据重新分配以进行聚合和分组操作。由于Shuffle过程中涉及到大量网络IO、数据传输和序列化，它被认为是昂贵的操作，且可能导致资源浪费和数据倾斜问题。在SQL查询中，简单的`GROUP BY`操作也会触发Shuffle，占据任务执行时间的大部分。

摘要由CSDN通过智能技术生成

1.Shuffle

首先什么是shuffle，在Hadoop生态圈中，经常会提到MappSide和ReduceSide，这两端是最经典的MSR范式。在Hadoop中，Shuffle的过程由Map端的输出结束到Reduce端的开始，这个过程统称为Shuffle的过程。Shuffle经常围绕着大量的聚合、分组的过程。例如我们再HiveSQL中执行一条最简短的

SELECT COUNT(*) FROM TABLE GROUP BY COLUMN_A

这句SQL中group by函数就会造成shuffle过程的出现。
举个栗子，Shuffle的过程是什么样的
SQL解析后的执行流程

由上图可知，在一个较为简单的SQL任务中，Shuffle只占据了很少的一部分。但是为什么在开发的面试过程中，会有那么多的面试官着重问到这些？因为在整个SQL的执行过程中，shuffle可能占据了任务执行时间的60%~80%左右。

2.为什么要进行Shuffle，为什么说Shuffle是一种昂贵的操作

为什么要进行shuffle？在Hadoop至Spark的生态圈中，往往有些计算伴随着复杂的聚合以及分组操作，才能达到理想的业务指标。而分布式的环境，并无法保证每次需要聚合的数据都存储在同一服务器乃至同一磁盘中。为此需要将相匹配的数据移动至相同节点，进行计算聚合，最终落地这样的过程才叫shuffle。在分布式文件存储系统的概念中，数据往往是零碎且分散的存储在

最低0.47元/天解锁文章

笠泽之畔

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
Spark-Part1.大数据生态圈中的Shuffle过程

1.Shuffle首先什么是shuffle，在Hadoop生态圈中，经常会提到MappSide和ReduceSide，这两端是最经典的MSR范式。在Hadoop中，Shuffle的过程由Map端的输出结束到Reduce端的开始，这个过程统称为Shuffle的过程。Shuffle经常围绕着大量的聚合、分组的过程。例如我们再HiveSQL中执行一条最简短的SELECT COUNT(*) FROM TABLE GROUP BY COLUMN_A这句SQL中group by函数就会造成shuffle过程的出
复制链接

扫一扫