Flink window机制

此文已由作者岳猛授权网易云社区发布。

欢迎访问网易云社区,了解更多网易技术产品运营经验。


问题

window是解决流计算中的什么问题?

怎么划分window?有哪几种window?window与时间属性之间的关系?

window里面的数据何时被计算?

window 何时被清除?

第一个问题

window是解决流计算中的什么问题?

熟悉google dataflow模型的同学应该清楚,流计算被抽象成四个问题,what,where,when,how?

那么window解决的是where,也就是将无界数据划分成有界数据。

第二个问题

在说明如何划分window之前,我们先看下流计算中有哪几种时间概念


1000

event time:记录发生的时间,比如你点击某个网站当时产生的时间

ingest time:log 进入系统的时间,比如从系统从kafka读进记录的时间

process time:处理时间,记录被处理时的系统时间。

那么window是如何划分的呢?

答案是:

每一条记录来了以后会根据时间属性值采用不同的window assinger 方法分配给一个或者多个窗口。

那么有几种window assinger方式呢,目前来看是每种时间属性对应三种(flink没有基于注入时间的窗口)

1)固定窗口分配:一条记录只属于一个窗口

2)滑动窗口分配:一条记录属于多个窗口

3)会话窗口:一条记录一个窗口

例子:

固定窗口:窗口大小是5s,key为A的数据分别在0,4999ms,5000s产生了数据,那么形成的window如下,窗口允许等待时间为5s


676

滑动窗口:窗口大小为5s,滑动间隔为1s,key为A的数据分别在0,4999ms,5000s产生了数据,那么形成的window为



753

session窗口: 间隔5s中,key为A的数据分别在0,4999ms,5000s产生了数据,那么形成的window为


724

第三个问题,window的数据何时被计算,也就是四个问题中的第三个问题when?

解决这个问题用的方式是watermark和trigger,watermark用来标记窗口的完整性,trigger用来设计窗口数据触发条件。一般的trigger实现是当watermark处于某种时间条件下或者窗口数据达到一定条件,窗口的数据开始计算。

举个常见的trigger实现方式:当watermark越过window边界,触发窗口计算,对第一个固定窗口的三条数据。



683

基础条件是:watermark和数据本身一样作为正常的消息在流中流动。

1)windowoperator接到消息以后,首先存到state(本文使用rocksdb),存放的格式为k,v,key的格式是key + window,value是key和window对应的数据

2)注册一个timer,timer的数据结构为【key,window,window边界 - 1】,将timer放到集合中去。

3)当windowoperator收到watermark以后,取出集合中小于watermark的timer,触发其window。触发的过程中将state里面对应key及window的数据取出来,这里要经过序列化的过程,发送给windowfunction计算。

4)数据发送给windowfunction,实现windowfunction的window数据计算逻辑

对于固定窗口,当watermark大于5000的时候,(A,0),(A,4999)会被计算,当watermark大于9999的时候,(A,5000)会被计算

最后一个问题。如果window一直存在,那么势必会造成不必要的内存和磁盘浪费

那么window什么时候被清除呢?

每个window都会注册一个cleantime,cleantime代表这个window的存活时间,cleantime = window maxtime + 窗口允许的最大延迟

当watermark > cleanTime的时候,该窗口会被清除,对应的状态也会被清除。对于固定窗口的例子,形成的cleantimer为


470

当5000 < watermark < 9999的时候,窗口timewindow(0,5000)会被计算不会被清除

当9999 < watermark < 14999的时候,窗口timewindow(5000,10000)会被计算但是不会被清除,清除timewindow(0,5000)

只有watermark 》 14999的时候,清除timewindow(5000,10000)

最后有几个问题?

假如5000 < watermark < 9999,又有timewindow(0, 5000)的延迟数据过来,那么该怎么处理呢?


免费体验云安全(易盾)内容安全、验证码等服务

更多网易技术、产品、运营经验分享请点击





相关文章:
【推荐】 FUI- 我离钢铁侠还差几步?
【推荐】 组建验证码的具体工作流程
【推荐】 一些 ssh 小技巧

转载于:https://www.cnblogs.com/163yun/p/9882093.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flink中的窗口(window)是在流处理过程中对数据进行分组和聚合的一种机制。窗口将流数据划分为有限大小的数据块,然后对每个窗口中的数据进行处理和计算。 在Flink中,窗口有两种类型:时间窗口和计数窗口。时间窗口根据事件发生的时间范围对数据进行划分,而计数窗口根据事件发生的次数对数据进行划分。 根据时间的划分方式,时间窗口可以分为滚动窗口和滑动窗口。滚动窗口将数据按照固定长度的时间间隔进行划分,比如每5分钟划分一个窗口。滑动窗口则以固定的时间间隔进行滑动,比如每隔1分钟滑动一次窗口。 对于计数窗口,可以定义固定数量的事件来进行划分,比如每10个事件划分一个窗口。 窗口操作可以包括聚合、计数、求和、最大值、最小值等操作。在窗口操作中,Flink提供了丰富的函数和操作符来实现不同的聚合和计算需求。 窗口操作可以通过窗口函数(window function)实现,窗口函数定义了对窗口中的数据进行聚合和处理的逻辑。 使用窗口操作可以提高流处理的性能和效率,通过将连续的数据划分为有限的窗口,可以减少计算的复杂性。同时,窗口操作也可以使得流处理应用更具可控性和灵活性。 在Flink中,窗口操作广泛应用于各种实时数据分析、实时计算和数据流处理的场景,如实时监测、实时查询、实时报警等。通过合理设置窗口大小和窗口滑动间隔,可以根据实际需求来进行数据处理和聚合,以满足不同的业务需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值