【Flink流式计算框架】：基本概念（二）

最新推荐文章于 2024-01-25 01:55:14 发布

Yuan_CSDF

最新推荐文章于 2024-01-25 01:55:14 发布

阅读量216

点赞数

分类专栏： # Flink基础

本文链接：https://blog.csdn.net/Yuan_CSDF/article/details/116675263

版权

15 篇文章 2 订阅

订阅专栏

3.Flink的时间

事件时间(Event Time)：事件创建时间。它通常由事件中的时间戳描述，例如采集的日志数据中，每一条日志都会记录自己的生成时间，Flink通过时间戳分配器访问事件时间戳。
采集时间(Ingestion Time)：事件进入到Flink DataFlow的时间
处理时间(Processing Time)：某个Operator对事件进行处理的本地系统时间。默认的时间属性就是Processing Time。

在Flink的流式处理中，绝大部分的业务都会使用eventTime，一般只在eventTime无法使用时，才会被迫使用ProcessingTime或者IngestionTime。

Window可以分成两类：

对于TimeWindow，可以根据窗口实现原理的不同分成三类：滚动窗口（Tumbling Window）、滑动窗口（Sliding Window）和会话窗口（Session Window）。

WindowAPI 都由滚动窗口和滑动窗口。

事件窗口EventTimeWindow API：

基本操作：

Flink 中窗口机制和时间类型是完全解耦的，也就是说当需要改变时间类型时不需要更改窗口逻辑相关的代码。

Storm：通过监控process bolt中接收队列负载情况来处理反压，即当超过高水位值，就将反压信息写到Zookeeper，由zookeeper的watch通知worker进入反压状态，最后spout停止发送tuple。
Spark Streaming：设置属性“spark.streaming.backpressure.enabled”进行自动反压，即动态控制数据接收速率来适配集群数据处理能力。
Flink：不需要设置，自动处理反压，即每个组件都有对应的分布式阻塞队列，只有队列不满的情况，上游才发数据，较慢的接收者会自动降低发送速率，如果队列满了（有界队列），发送者会阻塞。

数据模型：
- spark 采用 RDD 模型，spark streaming 的 DStream 实际上也就是一组组小批数据 RDD 的集合
- flink 基本数据模型是数据流，以及事件（Event）序列
运行时架构：
- spark 是批计算，将 DAG 划分为不同的 stage，一个完成后才可以计算下一个
- flink 是标准的流执行模式，一个事件在一个节点处理完后可以直接发往下一个节点进行处理

Flink通过checkpoint来保存数据是否处理完成的状态。
由JobManager协调各个TaskManager进行checkpoint存储，checkpoint保存在 StateBackend中，默认StateBackend是内存级的，也可以改为文件级的进行持久化保存。
执行过程实际上是一个两段式提交，每个算子执行完成，会进行“预提交”，直到执行完sink操作，会发起“确认提交”，如果执行失败，预提交会放弃掉。
如果宕机需要通过StateBackend进行恢复，只能恢复所有确认提交的操作。