Shuffle
目录
一 .Shuffle基本概念
二 .MapReduce 过程为什么需要shuffle过程呢?
三 .Combiner
1 Combiner对系统的优化
四 .Partitioner
1 用数据分区解决数据相关性问题
2 Partitioner主要作用
五 .Shuffle过程的期望
六 .Sort
七 .Merge
四 .总结
Shuffle基本概念
Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。<