Flink窗口机制

文章目录

(一)窗口分类

(二)

一、窗口分类

  • 键控窗口 和 非键控窗口
  • 时间窗口 和 计数窗口
  • 滑动窗口 和 滚动窗口
  • 会话窗口

根据窗口不同的分类规则,大致可以分为上面几种。从上至下,更加具体。比如,键控窗口和非键控窗口都可以调定义时间窗口和计数窗口;而时间窗口和计数窗口,都可以定义滑动窗口和滚动窗口;另外,在时间窗口中,还有一个特例,就是会话窗口。

二、键控窗口 和 非键控窗口

根据在开窗之前,是否执行了 keyBy() 操作,分为 键控窗口 和 非键控窗口。

顾名思义,键控窗口,作用在键控流上,具有相同key的数据流到一个逻辑流中,后续调用 window()或timeWindow()、countWindow(),使用的都是键控窗口;非键控窗口,作用在非键控流上,原始流不会拆分成多个流。

注意,在键控流上,具有相同key的数据流到一个逻辑流中,由后续的同一个subtask处理,同时,同一个subtask上可能会处理多个key的逻辑流;非键控窗口,作用在非键控流上,原始流不会拆分成多个流,所有窗口的逻辑由单个任务执行,即并行度为1,所有数据都由同一个subtask处理。所以,在非键控窗口上设置并行度并不会很好地改善并行处理能力,因为所有的数据都由一个subtask处理,并没有提高并行处理能力。

如果在后续调用自定义窗口,键控窗口Function 继承的是 RichWindowFunction,非键控窗口Function 继承的是 RichAllWindowFunction

三、时间窗口 和 计数窗口

时间窗口,根据时间来划分窗口,可以是时间时间eventTime,也可以是处理时间processTime;计数窗口,根据数据量划分窗口。

四、滑动窗口 和 滚动窗口

时间窗口 和 计数窗口上,都可以使用滑动窗口 和 滚动窗口。

滑动窗口:设置窗口大小 和 滑动步长,数据可能会重复(size>slide),也可能会遗漏(size>slide),也可能数据既不重复,也不遗漏(size=slide)。

滚动窗口:设置窗口大小。数据不会重复,也不会遗漏。

下面举例说明

1、滑动时间窗口

size=10s,slide=5s,每5秒计算最近10秒钟的数据,每个窗口会有5秒钟的数据和上一个窗口重复;

size=5s,slide=10s,每10秒计算最近5秒钟的数据,每个窗口触发计算时,会有5s的数据遗漏,没有被计算到;

 

size=10s,slide=10s,每10秒计算最近10秒钟的数据,每个窗口会的数据和上一个窗口都不会重复;

 

2、滚动时间窗口

设置窗口长度,每个窗口关闭之后,往后滚动,开始下一个窗口;类似于窗口长度和滑动步长相同的滑动时间窗口;

 3、计数滑动窗口

和时间没有关系,只跟数据量有关系。

size=5,slide=2,每2条计算最近5条数据,每个窗口会有3条数据和上一个窗口重复;

 size=2,slide=5,每5条计算最近2条数据,每个窗口会有3条数据遗漏,没有计算到;

 size=5,slide=5,每5条计算最近5条数据,每个窗口的数据和上个窗口数据都不会重复,同时数据也不会遗漏;

4、滚动时间窗口

 设置窗口长度,每个窗口关闭之后,往后滚动,开始下一个窗口;类似于窗口长度和滑动步长相同的滑动计数窗口;

五、会话窗口

会话窗口,只存在于时间窗口中,在指定的时间间隔内,没有新的数据进来,则关闭窗口,执行计算逻辑。

六、窗口类型结构图

 

以上,是对窗口学习的简单总结。如有不同见解,欢迎交流。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值