Spark-Part1.大数据生态圈中的Shuffle过程

本文探讨了大数据处理中的关键步骤——Shuffle。 Shuffle是MapReduce和Spark中的重要阶段,涉及数据重新分配以进行聚合和分组操作。由于Shuffle过程中涉及到大量网络IO、数据传输和序列化,它被认为是昂贵的操作,且可能导致资源浪费和数据倾斜问题。在SQL查询中,简单的`GROUP BY`操作也会触发Shuffle,占据任务执行时间的大部分。
摘要由CSDN通过智能技术生成

1.Shuffle

首先什么是shuffle,在Hadoop生态圈中,经常会提到MappSide和ReduceSide,这两端是最经典的MSR范式。在Hadoop中,Shuffle的过程由Map端的输出结束到Reduce端的开始,这个过程统称为Shuffle的过程。Shuffle经常围绕着大量的聚合、分组的过程。例如我们再HiveSQL中执行一条最简短的

SELECT COUNT(*) FROM TABLE GROUP BY COLUMN_A

这句SQL中group by函数就会造成shuffle过程的出现。
举个栗子,Shuffle的过程是什么样的
SQL解析后的执行流程

由上图可知,在一个较为简单的SQL任务中,Shuffle只占据了很少的一部分。但是为什么在开发的面试过程中,会有那么多的面试官着重问到这些?因为在整个SQL的执行过程中,shuffle可能占据了任务执行时间的60%~80%左右。

2.为什么要进行Shuffle,为什么说Shuffle是一种昂贵的操作

为什么要进行shuffle?在Hadoop至Spark的生态圈中,往往有些计算伴随着复杂的聚合以及分组操作,才能达到理想的业务指标。而分布式的环境,并无法保证每次需要聚合的数据都存储在同一服务器乃至同一磁盘中。为此需要将相匹配的数据移动至相同节点,进行计算聚合,最终落地这样的过程才叫shuffle。在分布式文件存储系统的概念中,数据往往是零碎且分散的存储在

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值