Flink chain优点:
为了更高效的分布式执行,Flink尽可能将operator的subtask链接(chain)在一起形成task。每个task在一个线程中执行。将operators链接成task是非常有效的优化:1、它能减少线程之间的切换。2、减少消息的序列化和反序列化。3、减少数据在缓冲区的交换。4、减少延迟的同时提高整体的吞吐量。
subtask链接(chain)在一起的条件:
1、用户没有禁用chain
2、上下游的并行度一致
3、下游节点的入度为1(也就是说下游节点没有来自其他节点的输入)
4、上下游节点都在一个slot group中
5、两数据节点间数据分区方式是forward
6、下游节点的chain策略为ALWAYS(可以与上下游链接,map、flatmap、filter等默认是ALWAYS)
7、上游节点chain策略ALWAYS或HEAD(只能与下游链接,不能与上游链接,Source默认是HEAD)
Flink调度的两个重要原则:
1、同一个operator的各个subtask是不能呆在同一个SharedSlot中的,例如FlatMap[1]和FlatMap[2]是不能在同一个SharedSlot中的
2、Flink是按照拓扑顺序从Source一个个调度到Sink的。例如WordCount(Source并行度为1,其他并行度为2),那么调度的顺序依次是:Source -> FlatMap[1] -> FlatMap[2] -> (KeyAgg、Sink[1]) -> (KeyAgg、Sink[2])
TaskManager是一个JVM进程,并会以独立的线程来执行一个task或多个subta