FLink（三）：逻辑视图与物理视图

大罗LuoSir

已于 2022-04-11 22:26:21 修改

阅读量7.4k

点赞数 22

分类专栏： Flink 文章标签： flink 大数据 java

于 2022-04-11 22:20:38 首次发布

本文链接：https://blog.csdn.net/qq_38112624/article/details/124111047

版权

Flink 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

一：逻辑视图与物理视图

Flink程序实际执行前，Flink会将用户变得的代码做一个简单的处理，生成逻辑视图。如图1所示。图中圆圈代表算子，keyBy()，timeWindow()，sum()可以组成一个时间窗口上的聚合操作，被归结为一个算子WindowAggration。FLink提供了编程接口，我们可以使用算自己构建数据流的逻辑视图。逻辑视图只是一种抽象，要将逻辑视图转化为物理执行图才能在分布式环境执行程序。

图1. 逻辑视图

物理视图如图2所示，圆圈部分表示算子在分区上的算子子任务。在分布式环境下，执行计算的单个节点（物理机或虚拟机）被称为实例，一个算子在并行执行时，算子子任务会被分到多个节点上，所以算子子任务又被称为算子实例。算子的并行度是可以设置的。在图中，sink算子的并行度设置为1，其他算子的并行度设置为2，并行度为多少，算子子任务就有多少个。算子子任务是Flink物理执行的基本单位，算子子任务之间是相互独立的，有自己的线程，可能分布在不同的节点上。

图2. 物理执行图

逻辑视图到物理视图的转换过程：StreamGraph->JobGraph->ExcutionGraph->物理执行图。

StreamGraph：表示Flink流处理作业的拓扑结构，由代码生成的最初的图，在StreamGraph中每个节点就是算子；

JobGraph：提交给JobManager的数据结构是JobGraph，StreamGraph优化后生成JobGraph，优化主要是将多个符合条件的节点链接在一起作为一个JobGraph的节点（JobVertex节点），以减少数据交换的传输开销。这个连接过程叫算子链。JobVertex节点包含一到多个算子，它的输出是IntermediateDataSet，是经过算子处理产生的数据集。

ExecutionGraph：JobManager会将JobGraph转化为ExecutionGraph，ExecutionGraph是JobGraph的并行版本。如JobVertex节点的并行度是4，那么它将生成4个ExecutionVertext节点，ExecutionVertex表示一个算子子任务。每个ExecutionVertex会输出一个IntermediateResultPartition，这是单个子任务的输出，ExecutionJobVertex是这些并行子任务的合集。

物理执行图：JobManager根据ExecutionGraph对作业进行调度，在各个TaskManager上部署具体的任务，物理执行图并不是一个具体的数据结构。