1.时间语义
在Flink 的流式处理中,会涉及到时间的不同概念,如下图所示:
- Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳。
- Ingestion Time:是数据进入Flink 的时间。
- Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time。
2.EventTime 的引入
在Flink 的流式处理中,绝大部分的业务都会使用eventTime,一般只在eventTime 无法使用时,才会被迫使用ProcessingTime 或者IngestionTime。
如果要使用EventTime,那么需要引入EventTime 的时间属性,引入方式如下所示:
val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给env 创建的每一个stream 追加时间特征
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
3.WaterMark
3.1基本概念
我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的,虽然大部分情况下,流到operator 的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、分布式等原因,导致乱序的产生,所谓乱序,就是指Flink 接收到的事件的先后顺序不是严格按照事件的Event Time 顺序排列的。
那么此时出现一个问题,一旦出现乱序,如果只根据eventTime 决定window 的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发window 去进行计算了,这个特别的机制,就是Watermark。
- Watermark 是一种衡量Event Time 进展的机制。
- Watermark 是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark 机制结合window 来实现。
- 数据流中的Watermark 用于表示timestamp 小于Watermark 的数据,都已经到达了,因此,window 的执行也是由Watermark 触发的。
- Watermark 可以理解成一个延迟触发机制,我们可以设置Watermark 的延时时长t,每次系统会校验已经到达的数据中最大的maxEventTime,然后认定eventTime小于maxEventTime - t 的所有数据都已经到达,如果有窗口的停止时间等于maxEventTime – t,那么这个窗口被触发执行。
有序流的Watermarker 如下图所示:(Watermark 设置为0)
乱序流的Watermarker 如下图所示:(Watermark 设置为2)
当Flink 接收到数据时,会按照一定的规则去生成Watermark,这条Watermark就等于当前所有到达数据中的maxEventTime - 延迟时长,也就是说,Watermark 是基于数据携带的时间戳生成的,一旦Watermark 比当前未触发的窗口的停止时间要晚,那么就会触发相应窗口的执行。由于event time 是由数据携带的,因此,如果运行过程中无法获取新的数据,那么没有被触发的窗口将永远都不被触发。上图中,我们设置的允许最大延迟到达时间为2s,所以时间戳为7s 的事件对应的Watermark 是5s,时间戳为12s 的事件的Watermark 是10s,如果我们的窗口1是1s~5s,窗口2 是6s~10s,那么时间戳为7s 的事件到达时的Watermarker 恰好触发窗口1,时间戳为12s 的事件到达时的Watermark 恰好触发窗口2。
Watermark 就是触发前一窗口的“关窗时间”,一旦触发关门那么以当前时刻为准在窗口范围内的所有所有数据都会收入窗中。
只要没有达到水位那么不管现实中的时间推进了多久都不会触发关窗。
3.2Watermark 的引入
val dataStream = inputStream
.map(data => {
val arr = data.split(",")
SensorReading(arr(0), arr(1).toLong, arr(2).toDouble)
})
.assignAscendingTimestamps(_.timestamp * 1000L) // 升序数据提取时间戳
// AssignerWithPeriodicWatermarks 周期性的生成 数据比较密集。大量来的时候 默认周期是200ms BoundedOutOfOrdernessTimestampExtractor
// AssignerWithPunctuatedWatermarks 间断性式生成 数据比较稀疏的时候 PunctuatedWatermarkAssignerWrapper
.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[SensorReading](Time.seconds(3)) {
override def extractTimestamp(element: SensorReading): Long = element.timestamp * 1000L
})
assignAscendingTimestamps(_.timestamp * 1000L) 升序数据提取时间戳
AssignerWithPeriodicWatermarks 周期性的生成 数据比较密集。大量来的时候 默认周期是200ms 可以使用ExecutionConfig.setAutoWatermarkInterval()方法进行设置。eg:BoundedOutOfOrdernessTimestampExtractor
AssignerWithPunctuatedWatermarks 间断性式生成 数据比较稀疏的时候 eg:PunctuatedWatermarkAssignerWrapper
3.2.1周期性的生成
代码有两种写法:
第一种:直接采用AssignerWithPeriodicWatermarks接口的实现类(Flink提供的,如上图所示)
第二种:自己定义一个AssignerWithPeriodicWatermarks接口的实现类
自定义周期性的时间戳抽取:
class PeriodicAssigner extends AssignerWithPeriodicWatermarks[SensorReading] {
val bound: Long = 60 * 1000 // 延时为1分钟
var maxTs: Long = Long.MinValue // 观察到的最大时间戳
override def getCurrentWatermark: Watermark = {
new Watermark(maxTs - bound)
}
override def extractTimestamp(r: SensorReading, previousTS: Long) = {
maxTs = maxTs.max(r.timestamp)
r.timestamp
}
}
在代码中调用如下:
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setParallelism(1)
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
env.getConfig.setAutoWatermarkInterval(50)
val inputStream = env.socketTextStream("localhost", 7777)
val dataStream = inputStream
.map(data => {
val arr = data.split(",")
SensorReading(arr(0), arr(1).toLong, arr(2).toDouble)
}).assignTimestampsAndWatermarks(new PeriodicAssigner)
3.2.2间断式的生成
class PunctuatedAssigner extends AssignerWithPunctuatedWatermarks[SensorReading] {
val bound: Long = 60 * 1000
override def checkAndGetNextWatermark(r: SensorReading, extractedTS: Long): Watermark = {
if (r.id == "sensor_1") {
new Watermark(extractedTS - bound)
} else {
null
}
}
override def extractTimestamp(r: SensorReading, previousTS: Long): Long = {
r.timestamp
}
}