Spark-Part1.大数据生态圈中的Shuffle过程
1.Shuffle
首先什么是shuffle,在Hadoop生态圈中,经常会提到MappSide和ReduceSide,这两端是最经典的MSR范式。在Hadoop中,Shuffle的过程由Map端的输出结束到Reduce端的开始,这个过程统称为Shuffle的过程。Shuffle经常围绕着大量的聚合、分组的过程。例如我们再HiveSQL中执行一条最简短的
SELECT COUNT(*) FROM TABLE GROUP BY COLUMN_A
这句SQL中group by函数就会造成shuffle过程的出
原创
2021-05-24 22:27:17 ·
293 阅读 ·
2 评论