Flink的滚动窗口、会话窗口、滑动窗口及其应用

什么是窗口

Flink作业中的窗口 是指一种对无限数据流设置有限数据集,从而实现了处理无线数据流的机制。窗口本身只是个划分数据集的依据,它并不存储数据。

当我们需要在时间窗口维度上对数据进行聚合时,窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API,我们可以将数据流切分成一个个窗口,对窗口内的数据进行处理

窗口主要有两种,一种基于时间(Time-based Window),一种基于数量(Count-based Window)。本文主要讨论Time-based Window,在Flink源码中,用TimeWindow表示。每个TimeWindow都有一个开始时间和结束时间,表示一个左闭右开的时间段。Flink为我们提供了一些内置的WindowAssigner,如滚动窗口、滑动窗口和会话窗口

滚动窗口

滚动窗口模式下窗口之间不重叠,且窗口长度(Size)是固定的。我们可以用TumblingEventTimeWindowsTumblingProcessingTimeWindows创建一个基于Event Time或Processing Time的滚动时间窗口。窗口的长度可以用org.apache.flink.streaming.api.windowing.time.Time中的secondsminuteshoursdays来设置。

滑动窗口

滑动窗口以一个步长(Slide)不断向前滑动,窗口的长度固定。使用时,我们要设置Slide和Size。Slide的大小决定了Flink以多快的速度来创建新的窗口,Slide较小,窗口的个数会很多。Slide小于窗口的Size时,相邻窗口会重叠,一个元素会被分配到多个窗口;Slide大于Size,有些元素可能被丢掉。

会话窗口

会话窗口模式下,两个窗口之间有一个间隙,被称为Session Gap。当一个窗口在大于Session Gap的时间内没有接收到新数据时,窗口将关闭。在这种模式下,窗口的长度是可变的,每个窗口的开始和结束时间并不是确定的。我们可以设置定长的Session Gap,也可以使用SessionWindowTimeGapExtractor动态地确定Session Gap的长度。

 

下一篇继续介绍自定义窗口

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flink SQL 中的窗口是将无限数据流划分为有限大小的块,以便进行有限的处理和聚合。窗口可以按照时间或数据数量进行定义。Flink SQL 支持以下类型的窗口: 1. 滚动窗口(Tumbling Window):滚动窗口是一系列固定大小的、不重叠的时间段,按照固定的时间长度进行滚动,例如每 5 秒一个窗口。 2. 滑动窗口(Sliding Window):滑动窗口是一系列大小固定、可以有重叠的时间段,按照固定的时间长度进行滑动,例如每 5 秒滑动一次,窗口大小为 10 秒。 3. 会话窗口(Session Window):会话窗口是一组活动时间段的集合,这些时间段之间的间隔小于或等于指定的时间长度。会话窗口不需要固定的窗口长度,而是根据数据本身的属性动态计算。 Flink SQL 中的窗口可以通过以下语法进行定义: ```sql SELECT ... FROM ... WHERE ... GROUP BY ... WINDOW <window_type> ( <window_property> ) ``` 其中,`<window_type>` 可以是 `TUMBLING`, `SLIDING` 或 `SESSION`,`<window_property>` 取决于窗口类型,例如: - 对于滚动窗口,可以使用 `SIZE` 或 `TIME` 参数指定窗口大小或时间长度,例如 `WINDOW TUMBLING (SIZE 5 MINUTES)`。 - 对于滑动窗口,可以使用 `SIZE` 和 `SLIDE` 参数分别指定窗口大小和滑动步长,例如 `WINDOW SLIDING (SIZE 5 MINUTES, SLIDE 1 MINUTE)`。 - 对于会话窗口,可以使用 `GAP` 参数指定最大间隔时间,例如 `WINDOW SESSION (GAP 5 MINUTES)`。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值