flink窗口讲解

理论

  • 1.window(窗口)概述:
    streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎, 而无限数据集是值一种不断增长的本质上无限的数据集, 而window是一种切割无限数据为有限块进行处理的手段
  • 2.window可以分为两种: 计数窗口(CountWindow)和时间窗口(TimeWindow)

    滚动窗口: 比如指定5分钟大小的窗口,窗口之间没有数据重叠,长度固定
    滑动窗口:窗口之间的数据会有重叠
    会话窗口:设定时间阈值,当超过这个时间,没有数据到来的话,会生成新的窗口

  • 水位线: 当我们使用事件时间进行处理时,会出现因为网络丶分布式等问题,数据产生乱序,但是我们又不能无限期的等下去,我们需要设定一个条件, 当达到时,就去强制计算window的内容,这个就叫做水位线(watemark),可以理解为是一个延迟触发机制

水位线例子讲解:
图解:
在这里插入图片描述

像上面的数据, 当数据来临时, 我们设置水位线延迟时间为2s,当第7s的数据来临时,此时水位线为5s, 这时候就会关闭1-5s的这个窗口,当第12s的数据来临时,此时水位线为10s,这个时候就会关闭5-10s的这个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值