Flink在开启窗口后,经常会对数据进行聚合操作,本文介绍一下Flink的窗口聚合。
Flink的窗口聚合的分类
分为两类:全量聚合和增量聚合。
增量聚合:是每来一条数据计算一次增量数据,窗口时间到了后输出。
方法:ReduceFunction和AggregateFunction
全量聚合:每来一条数据都放在内存中,当窗口时间到了后,一起计算然后输出。
方法:ProcessWindowFunction
1. ReduceFunction - 增量聚合
代码示例:
dataStream.map(pv => (pv.terminal, 1))
.keyBy(_._1)// 分组
.timeWindow(Time.seconds(5))// 开窗时间5S
// 自定义聚合函数。
.reduce(new ReduceFunction[(Int, Int)] {
override def reduce(value1: (Int, Int), value2: (Int, Int)): (Int, Int) = {
(value1._1, value1._2 + value2._2)
}
})
2. AggregateFunction - 增量聚合
代码示例:
dataStream.keyBy(p => p.terminal) // 按终端分组
.timeWindow(Time.seconds(5))// 开窗时间5S
// 自定义聚