Flink基础原理知识（程序、数据流、数据传输、任务链）

最新推荐文章于 2022-11-24 11:00:00 发布

Facouse

最新推荐文章于 2022-11-24 11:00:00 发布

阅读量1k

点赞数 1

分类专栏： Flink大数据框架文章标签： flink big data 大数据

本文链接：https://blog.csdn.net/MLwodejia/article/details/122096100

版权

11 篇文章 2 订阅

订阅专栏

Flink中的执行图可以分为四层：StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图
StreamGraph：是根据用户根据通过Stream API编写的代码生成的最初的图。用来表示程序的拓扑结构
JobGraph：StreamGraph经过优化后生成了JobGraph，提交给JobManager的数据结构，主要的优化为，将多个符合条件的节点chain合并为一个节点
ExecutionGraph：JobManager根据JobGraph生成ExecutionGraph。ExecutionGraph是JobGraph的并行版本，是调度层最核心的数据结构
物理执行图：JobManager根据ExecutionGraph对Job进行调度后，在TaskManager上部署Task后形成的“图”，并不是一个具体的数据结构

一个程序中，不同的算子可能有不同的并行度
算子之间传输的形式可以是one-to-one（forwarding）的模式也可以是redistributing的模式，具体为哪一种取决于算子的种类
One-to-one：stream维护着分区以及元素的顺序（比如source和map之间）。这意味着map算子的子任务看到的元素的个数与顺序跟source算子的子任务生产的元素的个数、顺序相同。map、fliter、flatMap等算子都是one-to-one的对应关系
Redistributing：stream的分区会发生改变。每一个算子的子任务依据所选择的transformation发送数据到不同的目标任务。例如，keyby基于hashCode重分区、而broadcast和rebalance会随机重新分区，这些算子都会引起redistribute过程，而redistribute过程类似于spark中的shuffle过程。