EventTime的引入
在Flink
的流式处理中,绝大部分的业务都会使用eventTime
,一般只在eventTime
无法使用时,才会被迫使用ProcessingTime
或者IngestionTime
。
如果要使用EventTime
,那么需要引入EventTime
的时间属性,引入方式如下所示
// 创建流处理环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
//设置从该环境创建的所有流的时间特征,例如处理时间,事件时间或摄取时间。
//如果将特征设置为EventTime的IngestionTime,则将默认水印更新间隔设置为200 ms。
//如果这不适用于您的应用程序,则应使用#setAutoWatermarkInterval(long)对其进行更改
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
Watermark
基本概念
我们知道,流处理
从事件产生,到流经source
,再到operator
,中间是有一个过程和时间的,虽然大部分情况下,流到operator
的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、分布式等原因,导致乱序
的产生,所谓乱序
,就是指Flink
接收到的事件的先后顺序不是严格按照事件的Event Time
顺序排列的。
那么此时出现一个问题,一旦出现乱序,如果只根据eventTime
决定window
的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发window
去进行计算了,这个特别的机制,就是Watermark
。
Watermark
是一种衡量Event Time
进展的机制,它是数据本身的一个隐藏属性,数据本身携带着对应的Watermark
。
Watermark
是用于处理乱序事件
的,而正确的处理乱序事件,通常用Watermark
机制结合window
来实现。
数据流中的Watermark
用于表示timestamp
小于Watermark
的数据,都已经到达了,因此,window
的执行也是由Watermark
触发的。
Watermark
可以理解成一个延迟触发机制,我们可以设置Watermark
的延时时长t,每次系统会校验已经到达的数据中最大的maxEventTime
,然后认定eventTime
小于maxEventTime - t
的所有数据都已经到达,如果有窗口的停止时间等于maxEventTime – t
,那么这个窗口被触发执行。
有序流的Watermarker
如下图所示:(Watermark设置为0)
乱序流的Watermarker
如下图所示:(Watermark设置为2)
当Flink
接收到每一条数据时,都会产生一条Watermark
,这条Watermark
就等于当前所有到达数据中的maxEventTime - 延迟时长
,也就是说,Watermark
是由数据携带的,一旦数据携带的Watermark
比当前未触发的窗口的停止时间要晚,那么就会触发相应窗口的执行。由于Watermark
是由数据携带的,因此,如果运行过程中无法获取新的数据,那么没有被触发的窗口将永远都不被触发。
上图中,我们设置的允许最大延迟到达时间为2s
,所以时间戳为7s
的事件对应的Watermark
是5s
,时间戳为12s
的事件的Watermark
是10s
,如果我们的窗口1是1s5s,窗口2是6s10s,那么时间戳为7s的事件到达时的Watermarker恰好触发窗口1,时间戳为12s的事件到达时的Watermark恰好触发窗口2。
Watermark
就是触发前一窗口的“关窗时间”
,一旦触发关门那么以当前时刻为准在窗口范围内的所有所有数据都会收入窗中。
只要没有达到水位那么不管现实中的时间推进了多久都不会触发关窗。