Flink事件时间处理和水印
1、Flink 中的时间语义
在 Flink 的流式处理中,会涉及到时间的不同概念,如下图所示
-
Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳。
-
Ingestion Time:是数据进入 Flink 的时间。
-
Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是 Processing Time。
2、EventTime的引入
-
在 Flink 的流式处理中,绝大部分的业务都会使用 eventTime,一般只在eventTime 无法使用时,才会被迫使用 ProcessingTime 或者 IngestionTime。
-
如果要使用 EventTime,那么需要引入 EventTime 的时间属性,引入方式如下所示:
val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给 env 创建的每一个 stream 追加时间特征
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
3、Watermark
基本概念
我们知道,流处理从事件产生,到流经 source,再到 operator,中间是有一个过程和时间的,虽然大部分情况下,流到 operator 的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、分布式等原因,导致乱序的产生,所谓乱序,就是指 Flink 接收到的事件的先后顺序不是严格按照事件的 Event Time 顺序排列的。
那么此时出现一个问题,一旦出现乱序,如果只根据 eventTime 决定 window 的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发 window 去进行计算了,这个特别的机制,就是 Watermark。
-
Watermark 是一种衡量 Event Time 进展的机制。
-
Watermark 是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark 机制结合 window 来实现。
-
数据流中的 Watermark 用于表示 timestamp 小于 Watermark 的数据,都已经到达了,因此,window 的执行也是由 Watermark 触发的。
-
Watermark 可以理解成一个延迟触发机制,我们可以设置 Watermark 的延时时长 t,每次系统会校验已经到达的数据中最大的 maxEventTime,然后认定 eventTime小于 maxEventTime - t 的所有数据都已经到达,如果有窗口的停止时间小于等于maxEventTime – t,那么这个窗口就会关闭然后被触发执行。
-
当一个窗口A被关闭去触发计算逻辑后,紧接着下一个窗口B来了一条属于窗口A(此数据的时间戳在窗口A的时间戳范围内)的数据,一般此数据并不会被归纳为窗口B的数据,会被舍弃。除非是该数据的时间戳为窗口A的停止时间,这个时候该条数据的时间戳会被修改为窗口B的开始时间时间戳去参与窗口B的逻辑计算。
有序流的 Watermarker 如下图所示:(Watermark延迟时间设置为 0)
乱序流的 Watermarker 如下图所示:(Watermark延迟时间设置为 2)
当 Flink 接收到数据时,会按照一定的规则去生成 Watermark,这条 Watermark就等于当前所有到达数据中的 maxEventTime - 延迟时长,也就是说,Watermark 是基于数据携带的时间戳生成的,一旦 Watermark 比当前未触发的窗口的停止时间要晚,那么就会触发相应窗口的执行。由于 event time 是由数据携带的,因此,如果运行过程中无法获取新的数据,那么没有被触发的窗口将永远都不被触发。
上图中,我们设置的允许最大延迟到达时间为 2s,所以时间戳为 7s 的事件对应的 Watermark 是 5s,时间戳为 12s 的事件的 Watermark 是 10s,如果我们的窗口 1 是 1s~5s,窗口 2 是 6s~10s,那么时间戳为 7s 的事件到达时的 Watermarker 恰好触发窗口 1,时间戳为 12s 的事件到达时的 Watermark 恰好触发窗口 2。
Watermark 就是触发前一窗口的“关窗时间”,一旦触发关门那么以当前时刻为准在窗口范围内的所有数据都会收入窗中。
只要没有达到水位那么不管现实中的时间推进了多久都不会触发关窗。
引入Watermark
watermark 的引入很简单,对于乱序数据,最常见的引用方式如下:
dataStream.assignTimestampsAndWatermarks( new
BoundedOutOfOrdernessTimestampExtractor[SensorReading](Time.milliseconds(1000)) {
override def extractTimestamp(element: SensorReading): Long = {
element.timestamp * 1000
}} )
Event Time 的使用一定要指定数据源中的时间戳。否则程序无法知道事件的事件时间是什么(数据源里的数据没有时间戳的话,就只能使用 Processing Time 了)。
我们看到上面的例子中创建了一个看起来有点复杂的类,这个类实现的其实就是分配时间戳的接口。Flink 暴露了 TimestampAssigner 接口供我们实现,使我们可以自定义如何从事件数据中抽取时间戳。
MyAssigner 有两种类型
-
AssignerWithPeriodicWatermarks
-
AssignerWithPunctuatedWatermarks
以上两个接口都继承自 TimestampAssigner。
(1)Assigner with periodic watermarks
周期性的生成 watermark:系统会周期性的将 watermark 插入到流中(水位线也是一种特殊的事件!)。默认周期是 200 毫秒。可以使用ExecutionConfig.setAutoWatermarkInterval()方法进行设置。
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)// 每隔 5 秒产生一个 watermark
env.getConfig.setAutoWatermarkInterval(5000)
-
产生 watermark 的逻辑:每隔 5 秒钟,Flink 会调用AssignerWithPeriodicWatermarks 的 getCurrentWatermark()方法。如果方法返回一个时间戳大于之前水位的时间戳,新的 watermark 会被插入到流中。这个检查保证了水位线是单调递增的。如果方法返回的时间戳小于等于之前水位的时间戳,则不会产生新的 watermark。
-
例子,自定义一个周期性的时间戳抽取:
class PeriodicAssigner extends AssignerWithPeriodicWatermarks[SensorReading] {val bound: Long = 60 * 1000 // 延时为 1 分钟var maxTs: Long = -1Loverride def getCurrentWatermark: Watermark = {new Watermark(maxTs - bound)
}override def extractTimestamp(r: SensorReading, previousTS: Long) = {
maxTs = maxTs.max(r.timestamp)
r.timestamp
} }
- 1
- 2
- 3
- 4
- 5
- 一种简单的特殊情况是,如果我们事先得知数据流的时间戳是单调递增的,也就是说没有乱序,那我们可以使用
assignAscendingTimestamps,这个方法会直接使用数据的时间戳生成 watermark。
val stream: DataStream[SensorReading] = ...val withTimestampsAndWatermarks = stream
.assignAscendingTimestamps(e => e.timestamp)>> result: E(1), W(1), E(2), W(2), ...
- 而对于乱序数据流,如果我们能大致估算出数据流中的事件的最大延迟时间,就可以使用如下代码:
val stream: DataStream[SensorReading] = ...val withTimestampsAndWatermarks = stream.assignTimestampsAndWatermarks(new SensorTimeAssigner
)
class SensorTimeAssigner extends
BoundedOutOfOrdernessTimestampExtractor[SensorReading](Time.seconds(5)) {// 抽取时间戳override def extractTimestamp(r: SensorReading): Long = r.timestamp
}>> relust: E(10), W(0), E(8), E(7), E(11), W(1), ...
(2)Assigner with punctuated watermarks
- 间断式地生成 watermark。和周期性生成的方式不同,这种方式不是固定时间的,而是可以根据需要对每条数据进行筛选和处理。直接上代码来举个例子,我们只给sensor_1 的传感器的数据流插入 watermark:
class PunctuatedAssigner extends AssignerWithPunctuatedWatermarks[SensorReading] {val bound: Long = 60 * 1000override def checkAndGetNextWatermark(r: SensorReading, extractedTS:Long): Watermark = {if (r.id == "sensor_1") {new Watermark(extractedTS - bound) }
else {null}}override def extractTimestamp(r: SensorReading, previousTS: Long): Long= { r.timestamp
}
}
4、Watermark实战演练
package cn.kgc.kb09.Window
import cn.kgc.kb09.Tramsfrom.WaterSensor
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.AssignerWithPeriodicWatermarks
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.watermark.Watermark
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
/**
* Flink 窗口函数
* Tumbling Window (滚动窗口) 窗口周期 10秒
* Sliding Window (滑动窗口) 窗口周期 10秒 滑动周期 5秒
* 找出最小空高
*
* 从socket端口接收字符串格式为"sensor_1,1549044122,10"数据
* 接收到字符串后将字符串流转换成WaterSensor流 DataStream[WaterSensor]
*/
// 定义样例类
case class WaterSensor(id:String,ts:Long,vc:Double)
object WindowDemo2 {
def main(args: Array[String]): Unit = {
// 创建执行的环境
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setParallelism(1) // 设置并行度
/**
* Flink 时间 三种情况
* EventTime 事件发生时间
* IngestionTime 事件进入到flink时间
* ProcessingTime 事件处理时间
*/
// 设置时间特行
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
// 从socket端口接收数据
val stream = env.socketTextStream("192.168.247.201",7777)
// 转换成样例类
val dataStream = stream.map(x => {
// 根据逗号切割 获取每个元素
val strings = x.split(",")
WaterSensor(strings(0).trim, strings(1).trim.toLong, strings(2).trim.toDouble)
})
// 一:简单,时间永远是升序的,不能延时
// .assignAscendingTimestamps(waterSensor => waterSensor.ts*1000)
// 二:Flink 框架自带类
// .assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[WaterSensor](Time.seconds(1)) { //水位延迟一秒,认为数据是向前推一秒过来的,滑动时间是2秒,
//那么本来第三秒的数据到来时认为第一秒和第二秒的数据都到了触发计算,现在设置延迟一秒,就需要第四秒的数据到来我才认为第1秒和第2秒的数据都到了才会触发计算。
//其实就是个增加容错性,降低延迟带来的影响,多等1秒,防止第三秒的数据到来时第一秒和第二秒还有数据没来。
// override def extractTimestamp(t: WaterSensor): Long = {
// t.ts*1000
// }
// })
// 三:自定义类
.assignTimestampsAndWatermarks(new MyAssigner)
// 数据处理
val dataStream2: DataStream[(String, Double)] = dataStream.map(data => (data.id, data.vc))
val dataStream3: KeyedStream[(String, Double), String] = dataStream2.keyBy(_._1)
// Tumbling Window 滚动窗口
// val dataStream4: WindowedStream[(String, Double), String, TimeWindow] = dataStream3.timeWindow(Time.seconds(10))
// Sliding Window 滑动窗口
val dataStream4: WindowedStream[(String, Double), String, TimeWindow] = dataStream3.timeWindow(Time.seconds(8),Time.seconds(2))
val minDataStream: DataStream[(String, Double)] = dataStream4.reduce((x, y) => (x._1,x._2.min(y._2)))
// 打印
dataStream.print("orig")
minDataStream.print("min")
// 执行
env.execute("windowDemo2")
}
}
// 自定义WaterMark
class MyAssigner extends AssignerWithPeriodicWatermarks[WaterSensor]{
var bound = 3000 // watermark 延迟关窗口时间
var maxTs:Long = 0L // 记录当前最大时间戳
override def extractTimestamp(t: WaterSensor, l: Long): Long = {
maxTs= Math.max(t.ts*1000,maxTs)
t.ts*1000
}
override def getCurrentWatermark: Watermark = {
new Watermark(maxTs-bound)
}
}
参考文献:
Flink WaterMark水位线(水印)的深入理解 | 易学教程
Flink Event Time Processing and Watermarks
Flink水印机制(watermark) - starzy - 博客园
Flink 操作 —— 水印 - Lemo_wd - 博客园