1.Shuffle
首先什么是shuffle,在Hadoop生态圈中,经常会提到MappSide和ReduceSide,这两端是最经典的MSR范式。在Hadoop中,Shuffle的过程由Map端的输出结束到Reduce端的开始,这个过程统称为Shuffle的过程。Shuffle经常围绕着大量的聚合、分组的过程。例如我们再HiveSQL中执行一条最简短的
SELECT COUNT(*) FROM TABLE GROUP BY COLUMN_A
这句SQL中group by函数就会造成shuffle过程的出现。
举个栗子,Shuffle的过程是什么样的
由上图可知,在一个较为简单的SQL任务中,Shuffle只占据了很少的一部分。但是为什么在开发的面试过程中,会有那么多的面试官着重问到这些?因为在整个SQL的执行过程中,shuffle可能占据了任务执行时间的60%~80%左右。
2.为什么要进行Shuffle,为什么说Shuffle是一种昂贵的操作
为什么要进行shuffle?在Hadoop至Spark的生态圈中,往往有些计算伴随着复杂的聚合以及分组操作,才能达到理想的业务指标。而分布式的环境,并无法保证每次需要聚合的数据都存储在同一服务器乃至同一磁盘中。为此需要将相匹配的数据移动至相同节点,进行计算聚合,最终落地这样的过程才叫shuffle。在分布式文件存储系统的概念中,数据往往是零碎且分散的存储在