1.概述
官网:
Flink 中基于排序的阻塞 Shuffle 实现 - 第一部分
Flink 中基于排序的阻塞 Shuffle 实现——第二部分
这部分重复了:【Flink】关于Flink:Flink-SortShuffle-实现简介
2.数据如何在Operator之间传递
数据shuffer是批处理应用程序中的一个重要阶段,它描述了数据如何从一个operator发送到下一位operator。在这个阶段,上游算子的输出数据会溢出到磁盘等持久化存储中,然后下游算子会读取相应的数据并进行处理。阻塞 shuffle 意味着算子 A 的中间结果不会立即发送给算子 B,直到算子 A 完全完成。
基于散列和基于排序的阻塞 shuffle 是现有分布式数据处理框架广泛采用的两种主要阻塞 shuffle 实现:
基于哈希的方法
:基于哈希的方法背后的核心思想是将不同消费者任务消耗的数据写入不同的文件,然后每个文件都可以作为分区数据的自然边界。基于排序的方法
&#x