Flink底层核心

最新推荐文章于 2024-11-17 16:19:17 发布

傲雪凌霜，松柏长青

最新推荐文章于 2024-11-17 16:19:17 发布

阅读量1.1k

点赞数 21

分类专栏：后端大数据文章标签： flink 大数据

本文链接：https://blog.csdn.net/Casual_Lei/article/details/142151690

版权

106 篇文章 1 订阅

订阅专栏

38 篇文章 0 订阅

订阅专栏

JobManager 是 Flink 集群的控制中心，负责调度、管理和协调整个作业的执行。它的主要职责包括：

TaskManager 是 Flink 集群中的工作节点，负责实际执行任务。每个 TaskManager 会执行多个任务槽（Task Slot），其具体职责包括：

任务执行：TaskManager 负责接收和执行由 JobManager 分配的任务。
资源隔离：每个 Task Slot 是 Flink 用于隔离任务资源的基本单元，Task Slot 可以防止任务之间的资源竞争，提供 CPU 和内存的隔离。
状态管理：TaskManager 负责管理任务的状态和中间结果，将状态存储在内存或外部存储系统中。
数据传输：TaskManager 之间进行网络通信，传输流数据。

DataStream API：Flink 提供了一个流式数据处理的编程接口，用于处理无限的数据流（无界流）。它的核心概念包括：
- Transformation：Flink 提供了丰富的数据转换操作（如 map、filter、reduce、window 等），这些操作可以直接应用于流数据。
- Window：Flink 支持对流数据进行窗口操作，将数据按时间、数量、会话等进行分割并聚合。
- Time Semantics：Flink 支持多种时间语义，包括处理时间（Processing Time）和事件时间（Event Time）。
DataSet API：用于批处理数据集，操作方式类似于批处理框架如 Hadoop。适用于有限的数据集。

Flink 的执行引擎将用户编写的代码转换为底层的并行计算任务并运行，这个过程分为多个步骤：

StreamGraph：这是用户定义的作业的初步表示，用户的 DataStream 程序会被翻译成一个有向无环图 (DAG)，其中节点表示操作符，边表示数据流动。
JobGraph：StreamGraph 会进一步被优化为 JobGraph。JobGraph 是物理执行的高层次逻辑表示，反映了任务之间的依赖关系。

TaskGraph 是 Flink 作业的物理执行图。JobGraph 被细化为 TaskGraph，它包含具体的物理执行任务，并包含每个任务的并行度信息。
Execution Graph：当 Flink 开始执行时，TaskGraph 会被转换成 Execution Graph，反映了任务如何在集群上并行执行。

每个 TaskManager 包含多个 Task Slot。每个 Task Slot 负责执行一个或多个并行任务，并且能够隔离不同任务的资源使用。通过这种方式，Flink 可以在单个节点上运行多个任务而不互相干扰。

Flink 处理的数据流可能会依赖于中间状态（例如计算窗口聚合、join 或带状态的函数），这时状态管理显得尤为重要。

Operator State：每个操作符（Operator）可以维护自己的状态。Operator State 在整个流作业中共享，不区分具体的数据键。
Keyed State：Keyed State 是基于键的状态，每个键（key）都有其自己的状态。Keyed State 常用于基于 key 的分布式状态处理。

Flink 提供了多种方式来存储作业的状态：

Checkpointing：Flink 支持周期性 checkpoint，它可以捕获整个作业的状态，用于恢复任务失败。checkpoint 是增量式的，系统只保存状态的变化部分。
Savepoint：Savepoint 是手动触发的状态保存点，常用于作业的维护和升级。Savepoint 通常用于持久化状态并在以后恢复。