10.flink-时间语义与 Wartermark (十)
在 Flink 的流式处理中,会涉及到时间的不同概念
Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的
日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事
件时间戳。
Ingestion Time:(数据通常需要通过消息队列如卡夫卡进入flink)是数据进入 Flink 的时间。
Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器
相关,默认的时间属性就是 Processing Time
例如:
例如,一条日志进入 Flink 的时间为 2018-11-12 10:00:00.123,到达 Window 的
系统时间为 2018-11-12 10:00:01.234,日志的内容如下:
2018-11-02 18:37:15.624 INFO Fail over to rm2
对于业务来说,要统计 1min 内的故障日志个数,哪个时间是最有意义的?
—— eventTime 因为我们要根据日志的生成时间进行统计。
1.EventTime 引入
在 Flink 的流式处理中,绝大部分的业务都会使用 eventTime,一般只在eventTime 无法使用时,才会被迫使用 ProcessingTime 或者 IngestionTime。
如果要使用 EventTime,那么需要引入 EventTime 的时间属性,引入方式如下所示:
val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给 env创建的每一个 stream追加时间特征
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
2.Watermark
基本概念
我们知道,流处理从事件产生,到流经 source,再到 operator,中间是有一个过程和时间的,虽然大部分情况下,流到 operator 的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、分布式等原因,导致乱序的产生,所谓乱序,就是指 Flink 接收到的事件的先后顺序不是严格按照事件的 Event Time 顺序排列的
那么此时出现一个问题,一旦出现乱序,如果只根据 eventTime 决定 window 的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发 window 去进行计算了,这个特别的机制,就是 Watermark。
- Watermark 是一种衡量 Event Time 进展的机制。
- Watermark 是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark 机制结合 window 来实现。
- 数据流中的 Watermark 用于表示 timestamp 小于 Watermark 的数据,都已经到达了,因此,window 的执行也是由 Watermark 触发的。
- Watermark 可以理解成一个延迟触发机制,我们可以设置 Watermark 的延时时长t,每次系统会校验已经到达的数据中最大的 maxEventTime,然后认定 eventTime小于 maxEventTime - t 的所有数据都已经到达,如果有窗口的停止时间等于maxEventTime – t,那么这个窗口被触发执行。
在一个窗口内,将第一条进来的数据的时间戳赋值给waterMark,第二条数据的时间戳与watermark比较取较大值赋值给watermark,后面依次类推,到达窗口的时间时,就认为小于watermark的数据以及进入flink被处理。
问题:还是会有漏掉的数据怎么办?
将watermark增加延迟机制,设置一个t表示延迟的时间,
-
当 Flink 接收到数据时,会按照一定的规则去生成 Watermark,这条 Watermark
就等于当前所有到达数据中的 maxEventTime - 延迟时长,也就是说,Watermark 是由数据携带的,一旦数据携带的 Watermark 比当前未触发的窗口的停止时间要晚,那么就会触发相应窗口的执行。由于 Watermark 是由数据携带的,因此,如果运行过程中无法获取新的数据,那么没有被触发的窗口将永远都不被触发。 -
Watermark 就是触发前一窗口的“关窗时间”,一旦触发关窗那么以当前时刻为准在窗口范围内的所有所有数据都会收入窗中。
只要没有达到水位那么不管现实中的时间推进了多久都不会触发关窗。 -
Watermark 就是触发前一窗口的“关窗时间”,一旦触发关门那么以当前时刻
为准在窗口范围内的所有所有数据都会收入窗中。
只要没有达到水位那么不管现实中的时间推进了多久都不会触发关窗。
3.watermark引入
Event Time 的使用一定要指定数据源中的时间戳。否则程序无法知道事件的事
件时间是什么(数据源里的数据没有时间戳的话,就只能使用 Processing Time 了。
先在上下文中设置
// 设置事件时间
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
//每隔五秒产生一个watermark
env.getConfig.setAutoWatermarkInterval(5000)
1.有序的事件时间:
- 对于排好序的数据,不需要延迟出发,直接指定时间戳(单位是毫秒)就行
dataStream.assignTimestampsAndWatermarks(_.timestamp * 1000)
2.无序的事件时间
- 对于乱序数据,最常见的引用方式
dataStream.assignTimestampsAndWatermarks( new
BoundedOutOfOrdernessTimestampExtractor[SensorReading](Time.milliseconds(1000)) {
override def extractTimestamp(element: SensorReading): Long = {
element.timestamp * 1000 //将原始数据的时间戳 * 1000
}
} )
3.自定义的方式引入watermark
flink暴露了TimeStampAssinger接口供我们实现,使我们可以自定义如何从事件中抽取时间戳和生成watermark,自定义类需要继承两种类型的TimeStampAssinger:AssignerWithPeriodicWatermarks和AssignerWithPunctuatedWatermarks
-
- 周期性的生成watermark— AssignerWithPeriodicWatermarks
周期性的生成 watermark:系统会周期性的将 watermark 插入到流中(水位线也是一种特殊的事件)。默认周期是 200 毫秒。可以使用ExecutionConfig.setAutoWatermarkInterval()方法进行设置。
例:
val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给 env创建的每一个 stream追加时间特 性
//使用事件时间
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
// 每隔 5秒 产生一个 watermark
env.getConfig.setAutoWatermarkInterval(5000)
val readings: DataStream[SensorReading] = env
.addSource(new SensorSource)
.assignTimestampsAndWatermarks(new MyAssigner())
//MyAssigner可以继承两种类型的TimeStampAssinger
/*
一种是:周期性的生成watermark
AssignerWithPeriodicWatermarks
一种是:间断性的生成watermark,
AssignerWithPunctuatedWatermarks
*/
class PeriodicAssigner extends
AssignerWithPeriodicWatermarks[SensorReading] {
val bound: Long = 60 * 1000 // 延时为 1分钟
var maxTs: Long = Long.MinValue // 观察到的最大时间戳
override def getCurrentWatermark: Watermark = {
new Watermark(maxTs - bound)
}
override def extractTimestamp(r: SensorReading, previousTS: Long) = {
maxTs = maxTs.max(r.timestamp)
r.timestamp
}
}
产生 watermark 的逻辑:每隔 5 秒钟,Flink 会调用
AssignerWithPeriodicWatermarks 的 getCurrentWatermark()方法。如果方法返回一个时间戳大于之前水位的时间戳,新的 watermark 会被插入到流中。这个检查保证了水位线是单调递增的。如果方法返回的时间戳小于等于之前水位的时间戳,则不会
产生新的 watermark
-
- 间断性的生成watermark----AssignerWithPunctuatedWatermarks
间断式地生成 watermark。和周期性生成的方式不同,这种方式不是固定时间的,而是可以根据需要对每条数据进行筛选和处理。
例:
class PunctuatedAssigner extends AssignerWithPunctuatedWatermarks[SensorReading] { val bound: Long = 60 * 1000 override def checkAndGetNextWatermark(r: SensorReading, extractedTS: Long): Watermark = { if (r.id == "s_1") { new Watermark(extractedTS - bound) } else { null } } override def extractTimestamp(r: SensorReading, previousTS: Long): Long = { r.timestamp } }
4.事件时间在window中的应用
1.滚动窗口
def main(args: Array[String]): Unit = {
// 环境
val env: StreamExecutionEnvironment =
StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
env.setParallelism(1)
val dstream: DataStream[String] = env.socketTextStream("localhost",7777)
val textWithTsDstream: DataStream[(String, Long, Int)] = dstream.map
{ text =>
val arr: Array[String] = text.split(" ")
(arr(0), arr(1).toLong, 1)
}
//
val textWithEventTimeDstream: DataStream[(String, Long, Int)] =
textWithTsDstream.assignTimestampsAndWatermarks(new
BoundedOutOfOrdernessTimestampExtractor[(String, Long,
Int)](Time.milliseconds(1000)) {
override def extractTimestamp(element: (String, Long, Int)): Long = {
return element._2
}
})
val textKeyStream: KeyedStream[(String, Long, Int), Tuple] =
textWithEventTimeDstream.keyBy(0)
textKeyStream.print("textkey:")
val windowStream: WindowedStream[(String, Long, Int), Tuple, TimeWindow]
= textKeyStream.window(TumblingEventTimeWindows.of(Time.seconds(2)))
val groupDstream: DataStream[mutable.HashSet[Long]] =
windowStream.fold(new mutable.HashSet[Long]()) { case (set, (key, ts, count))
=>
set += ts
}
groupDstream.print("window::::").setParallelism(1)
env.execute()
}
}
- 滑动窗口(SlidingEventTimeWindows
def main(args: Array[String]): Unit = {
// 环境
val env: StreamExecutionEnvironment =
StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
env.setParallelism(1)
val dstream: DataStream[String] = env.socketTextStream("localhost",7777)
val textWithTsDstream: DataStream[(String, Long, Int)] = dstream.map { text
=>
val arr: Array[String] = text.split(" ")
(arr(0), arr(1).toLong, 1)
}
val textWithEventTimeDstream: DataStream[(String, Long, Int)] =
textWithTsDstream.assignTimestampsAndWatermarks(new
BoundedOutOfOrdernessTimestampExtractor[(String, Long,
Int)](Time.milliseconds(1000)) {
override def extractTimestamp(element: (String, Long, Int)): Long = {
return element._2
}
})
val textKeyStream: KeyedStream[(String, Long, Int), Tuple] =
textWithEventTimeDstream.keyBy(0)
textKeyStream.print("textkey:")
val windowStream: WindowedStream[(String, Long, Int), Tuple, TimeWindow] =
textKeyStream.window(SlidingEventTimeWindows.of(Time.seconds(2),Time.millis
econds(500)))
val groupDstream: DataStream[mutable.HashSet[Long]] = windowStream.fold(new
mutable.HashSet[Long]()) { case (set, (key, ts, count)) =>
set += ts
}
groupDstream.print("window::::").setParallelism(1)
env.execute()
}
- 会话窗口(EventTimeSessionWindows)
相邻两次数据的 EventTime 的时间差超过指定的时间间隔就会触发执行。如果
加入 Watermark, 会在符合窗口触发的情况下进行延迟。到达延迟水位再进行窗口
触发
def main(args: Array[String]): Unit = {
//
val env: StreamExecutionEnvironment =
StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
env.setParallelism(1)
val dstream: DataStream[String] = env.socketTextStream("localhost",7777)
val textWithTsDstream: DataStream[(String, Long, Int)] = dstream.map { text
=>
val arr: Array[String] = text.split(" ")
(arr(0), arr(1).toLong, 1)
}
val textWithEventTimeDstream: DataStream[(String, Long, Int)] =
textWithTsDstream.assignTimestampsAndWatermarks(new
BoundedOutOfOrdernessTimestampExtractor[(String, Long,
Int)](Time.milliseconds(1000)) {
override def extractTimestamp(element: (String, Long, Int)): Long = {
return element._2
}
})
val textKeyStream: KeyedStream[(String, Long, Int), Tuple] =
textWithEventTimeDstream.keyBy(0)
textKeyStream.print("textkey:")
val windowStream: WindowedStream[(String, Long, Int), Tuple, TimeWindow]
= textKeyStream.window(EventTimeSessionWindows.withGap(Time.milliseconds(500)
) )
windowStream.reduce((text1,text2)=>
( text1._1,0L,text1._3+text2._3)
) .map(_._3).print("windows:::").setParallelism(1)
env.execute()
}