flink 三种时间机制_Flink流计算编程--watermark（水位线）简介

最新推荐文章于 2023-11-11 23:42:20 发布

weixin_39764212

最新推荐文章于 2023-11-11 23:42:20 发布

阅读量396

点赞数

文章标签： flink 三种时间机制

本文链接：https://blog.csdn.net/weixin_39764212/article/details/111729027

版权

时间语义谈及watermark就要先从Flink支持的时间语义说起，Flink支持三种时间语义：process time:指的系统处理对应数据时的系统时间。他是最简单的一种实现，由于不需要额外的协调，因性能最好event time:是指数据中携带的时间，而不是数据到达的时间。因此时间的进度完全取决于数据，而不是系统时间。使用event time必须指定生成eventTime和watermark的方...

摘要由CSDN通过智能技术生成

时间语义

谈及watermark就要先从Flink支持的时间语义说起，Flink支持三种时间语义：

process time:指的系统处理对应数据时的系统时间。他是最简单的一种实现，由于不需要额外的协调，因性能最好

event time:是指数据中携带的时间，而不是数据到达的时间。因此时间的进度完全取决于数据，而不是系统时间。使用event time必须指定生成eventTime和watermark的方式。因为他一般会等待迟到的数据，因此一定会有一定的延时

ingestion time:是指数据进入flink的时间，在source处插入的时间，和process time一样无法处乱序事件

对于eventtime和ingestion time两种语义到达的数据有可能乱序的。从事件产生(例如日志采集数据中的乱序日志)，到流经source，再到operator，中间是有一个过程时间的。虽然大部分情况下，流到operator的数据都是按照事件产生的时间顺序来的，但是也不排除由于网络、背压等原因，导致乱序的产生(out-of-order或者说late element)。

但是对于late element，我们又不能无限期的等下去，必须要有个机制来保证一个特定的时间后，必须触发window去进行计算了。这个特别的机制，就是watermark，它告诉了算子时间不大于 WaterMark 的消息不应该再被接收【如果出现意味着延迟到达】。也就是说水位线以下的数据均已经到达。WaterMark 从源算子开始 emit，并逐级向下游算子传递。当源算子关闭时，会发射一个携带 Long.MAX_VALUE 值时间戳的 WaterMark，下游算子接收到之后便知道不会再有消息到达。

1、watermark的概念

watermark是一种衡量Event Time进展的机制，它是数据本身的一个隐藏属性。通常基于Event Time的数据，自身都包含一个timestamp，例如1472693399700(2016-09-01 09:29:59.700)，而这条数据的watermark时间则可能是：

watermark(1472693399700) = 1472693396700(2016-09-01 09:29:56.700)

这条数据的watermark时间是什么含义呢？即：timestamp小于1472693396700(2016-09-01 09:29:56.700)的数据，都已经到达了。

2、watermark有什么用？

watermark是用于处理乱序事件的，而正确的处理乱序事件，通常用watermark机制结合window来实现。

我们知道，流处理从事件产生，到流经source，再到operator，中间是有一个过程和时间的。虽然大部分情况下，流到operator的数据都是按照事件产生的时间顺序来的，但是也不排除由于网络、背压等原因，导致乱序的产生(out-of-order或者说late element)。

但是对于late element，我们又不能无限期的等下去，必须要有个机制来保证一个特定的时间后，必须触发window去进行计算了。这个特别的机制，就是watermark。

3、watermark如何分配？

通常，在接收到source的数据后，应该立刻生成watermark；但是，也可以在source后，应用简单的map或者filter操作，然后再生成watermark。

生成watermark的方式主要有2大类：

(1):With Periodic Watermarks

(2):With Punctuated Watermarks

第一种可以定义一个最大允许乱序的时间，这种情况应用较多。

我们主要来围绕Periodic Watermarks来说明，下面是生成periodic watermark的方法：

/**

最低0.47元/天解锁文章

weixin_39764212

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
flink 三种时间机制_Flink流计算编程--watermark（水位线）简介

时间语义谈及watermark就要先从Flink支持的时间语义说起，Flink支持三种时间语义：process time:指的系统处理对应数据时的系统时间。他是最简单的一种实现，由于不需要额外的协调，因性能最好event time:是指数据中携带的时间，而不是数据到达的时间。因此时间的进度完全取决于数据，而不是系统时间。使用event time必须指定生成eventTime和watermark的方...
复制链接

扫一扫