Spark Sort Shuffle (二)
[睡着的水-hzjs-2016.08.19]
一、为什么使用Sort-Based Shuffle?
------# Shuffle一般包含两阶段的任务:
1、产生Shuffle数据的阶段(map阶段;需要实现ShuffleManager中getWriter来写数据【数据可以BlockManager写到Memory\Disk\Tachyon等,例如像非常快的Shuffle,此时可以考虑把数据写在内存中,但是内存不稳定,建议采用MEMORY_AND_DISK方式】);
2、使用Shuffle数据的阶段(reduce阶段,需要实现ShuffleManager的getReader,Reader会向Driver去获