Flink知识点总结

本文介绍了Flink的数据处理流程,包括摒弃Spark的transform、action思想,强调并行度和算子间的运算流程。详细阐述了Flink在分布式环境中的运行机制,如JobManager、TaskManager和Client的角色及交互。还提到了Task的切分、状态管理和窗口函数,以及处理时间、事件时间和摄入时间的概念,以及水印技术的应用。
摘要由CSDN通过智能技术生成

介绍
flink 数据处理流程:
在这里插入图片描述

flink 摒弃了spark 拥有两个算子的思想(transfor、action),其数据流程包括了
在这里插入图片描述
关于并行度和算子之间的运算流程为:
在这里插入图片描述
其在分布式上运行流程为:
在这里插入图片描述
具体执行步骤为
1、当 Flink 集群启动后,首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager, JobManager 再调度任务到各个 TaskManager 去执行,然后 TaskManager 将心跳和统计信息汇报给 JobManager。 TaskManager 之间以流的形式进行数据的传输。上述三者均为独立的 JVM 进程。
2、Client 为提交 Job 的客户端,可以是运行在任何机器上(与 JobManager 环境连通即可)。提交 Job 后,Client 可以结束进程 (Streaming的任务),也可以不结束并等待结果返回。JobManager 主要负责调度 Job 并协调 Task 做 checkpoint(分布式快照)。从 Client 处接收到 Job 和 JAR 包 等资源后,会生成优化后的执行计划,并以 Task 的单元调度到各个 TaskManager 去执行。
3、Client 为提交 Job 的客户端,可以是运行在任何机器上(与 JobManager 环境连通即可)。提交 Job 后,Client 可以结束进程 (Streaming的任务),也可以不结束

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值