Flink知识点总结

最新推荐文章于 2024-01-12 09:51:51 发布

Bingo_Zzz

最新推荐文章于 2024-01-12 09:51:51 发布

阅读量440

点赞数

本文链接：https://blog.csdn.net/Bingo_Zzz/article/details/107726468

版权

本文介绍了Flink的数据处理流程，包括摒弃Spark的transform、action思想，强调并行度和算子间的运算流程。详细阐述了Flink在分布式环境中的运行机制，如JobManager、TaskManager和Client的角色及交互。还提到了Task的切分、状态管理和窗口函数，以及处理时间、事件时间和摄入时间的概念，以及水印技术的应用。

摘要由CSDN通过智能技术生成

介绍
flink 数据处理流程：
在这里插入图片描述

flink 摒弃了spark 拥有两个算子的思想（transfor、action）,其数据流程包括了
在这里插入图片描述
关于并行度和算子之间的运算流程为：

其在分布式上运行流程为：

具体执行步骤为
1、当 Flink 集群启动后，首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager， JobManager 再调度任务到各个 TaskManager 去执行，然后 TaskManager 将心跳和统计信息汇报给 JobManager。 TaskManager 之间以流的形式进行数据的传输。上述三者均为独立的 JVM 进程。
2、Client 为提交 Job 的客户端，可以是运行在任何机器上（与 JobManager 环境连通即可）。提交 Job 后，Client 可以结束进程（Streaming的任务），也可以不结束并等待结果返回。JobManager 主要负责调度 Job 并协调 Task 做 checkpoint（分布式快照）。从 Client 处接收到 Job 和 JAR 包等资源后，会生成优化后的执行计划，并以 Task 的单元调度到各个 TaskManager 去执行。
3、Client 为提交 Job 的客户端，可以是运行在任何机器上（与 JobManager 环境连通即可）。提交 Job 后，Client 可以结束进程（Streaming的任务），也可以不结束