Spark Hash Shuffle(一)
[ 睡着的水-hzjs-2016.08.19 ]
一、什么是Shuffle?
Shuffle 中文的意思是混洗的意思,需要shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算机点上进行计算。
二、shuffle面临的问题?运行Task的时候才会产生Shuffle(Shuffle已经融入算子中了)!
1、数据量非常的大,性能很不好
2、数据如何分区,即Partition,Hash,Sort,钨丝计算
3、负载均衡(数据倾斜)
4、网络传输效率:需要压缩与加压缩之间进行权衡,序列化与反序列化也是要考虑的问题。
¥——-具体的Task在进行计算的时候尽一切可能的是的数据具备Pross Lacality 的特性