窗口(Window)就是将无限流切割为有限流的一种方式,
它会将流数据分发到有限大小的桶(bucket)中进行分析
时间窗口(Time Window)
- 滚动时间窗口
将数据依据固定的窗口长度对数据进行切分
时间对齐,窗口长度固定,没有重叠
- 滑动时间窗口
- 会话窗口(只有Flink 支持)
计数窗口(Count Window)
- 滚动计数窗口
- 滑动计数窗口
窗口分配器——window() 方法
处理时间窗口
window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
事件时间窗口
window(TumblingEventTimeWindows.of(Time.seconds(5)))
窗口聚合函数定义了要对窗口中收集的数据做的计算操作
可以分为两类
- 增量聚合函数(不可以访问窗口信息)
每条数据到来就进行计算,只保存一个简单的状态(累加器)
ReduceFunction, AggregateFunction
当窗口闭合的时候,增量聚合完成
处理时间:当机器时间超过窗口结束时间的时候,窗口闭合
- 全窗口聚合函数
先把窗口所有数据收集起来,等到计算的时候会遍历所有数据
ProcessWindowFunction
增量聚合和全窗口聚合结合使用
- 可以访问窗口信息
- 不需要收集窗口中的所有元素,只需要维护一个累加器,节省内存
其他参数解释:
- trigger() ——触发器
- 定义窗口什么时候关闭,触发计算并输出结果
- .evictor() ——移除器
- 定义移除某些数据的逻辑
- .allowedLateness() ——允许处理迟到的数据
- .sideOutputLateData() ——将迟到的数据放入侧输出流
- .getSideOutput() ——获取侧输出流