Flink的Window机制
FlinkWindow的分类
Flink的Window可以分为两大类,五小类
- 时间窗口
窗口类型 | 说明 | 举例 |
---|---|---|
tumbling window | 以一定的时常分隔的时间 每一个时间段都是一个window | 若间隔=15秒,那么一分钟可以切割成如下窗口: 0-15,15-30,30-45,45-60,前闭后开区间 |
Sliding Windows | 以特定的步长(step)增长的,时长(size)特定的窗口 | 若step=5,size=12, 那么一分钟可以切割成如下窗口 0-24,12-36,24-48,36-60,48-72, 前闭后开区间 |
Session Window | 设定一个超时时间(timeout),若两个元素间的时间 超过timeout,那这两个元素会被划分到不同的window | 若timeout=5, t1.time=1,t2.time=4, t3.time=5,t4.time=11, 那么t1、t2、t3属于同一个window, t4属于另一个window |
- 计数窗口
窗口类型 | 说明 |
---|---|
Tumbling Count Window | 类似滚动时间窗口,只是把时间改为计数 |
Sliding Count Window | 类似滑动时间窗口,只是把时间改为计数 |
Flink的窗口操作
Flink可以对Keyedstream(.window)和Datastream(.windowAll)进行window操作。对于Keyedstream的窗口来说,可以在每一个key上进行聚合等操作。
Flink的时间类型
Watermark和Window中都说到了时间,那么这个时间到底是指的什么时间呢?
实际上,Flink支持处理时间和事件时间两种时间类型。
Flink中默认的时间类型的Process Time,也就是Flink处理数据的时间,如果要使用Event Time,需要进行如下设置
//设置使用事件时间
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
如此,就设置了Flink使用事件时间,但这还不够,还缺一个提取事件事件的操作,这个操作,就是Watermark中的extractTimestamp
Flink的Watermark
Watermark是Flink中为保障乱序数据的一大利器
Watermark声明了一个延时,到达窗口时间后,会等待特定的时间,以便处理迟到的数据
如下代码定义了一个等待3.5秒的Watermark
class MyAssignerWithPerdicWatermarks extends AssignerWithPeriodicWatermarks[ApplyInfo] {
val maxWaitTime = 3500L
var lastTimestamp = 0L
override def getCurrentWatermark: Watermark = {
new Watermark(lastTimestamp - maxWaitTime)
}
//这个方法就是提取事件事件的方法,在这里就是ApplyInfo中的time字段
override def extractTimestamp(item: ApplyInfo, prev: Long): Long = {
lastTimestamp = Math.max(item.time, prev)
item.time
}
}
实例
信贷系统中,Flink从Source中获取所有的贷款金额,做一个地区实时放款额(最近15秒的放款额,三秒更新一次)展示的实现如下:
val env = StreamExecutionEnvironment.getExecutionEnvironment
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
env.setParallelism(1)
val stream = env.addSource(new TestObjectSourceFunction)
val windowStream = stream
.assignTimestampsAndWatermarks(new MyAssignerWithPeriodicWatermarks)
.keyBy(_.areaCode)
.timeWindow(Time.seconds(15), Time.seconds(3))
.sum("amt")
stream.print("source")
windowStream.print("window")
env.execute("Window Test")