- 博客(1)
- 收藏
- 关注
原创 Spark-Part1.大数据生态圈中的Shuffle过程
1.Shuffle 首先什么是shuffle,在Hadoop生态圈中,经常会提到MappSide和ReduceSide,这两端是最经典的MSR范式。在Hadoop中,Shuffle的过程由Map端的输出结束到Reduce端的开始,这个过程统称为Shuffle的过程。Shuffle经常围绕着大量的聚合、分组的过程。例如我们再HiveSQL中执行一条最简短的 SELECT COUNT(*) FROM TABLE GROUP BY COLUMN_A 这句SQL中group by函数就会造成shuffle过程的出
2021-05-24 22:27:17
293
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人