Flink的window

概念

一般真实的流都是无界的,处理无界的数据,可以把无限的数据流进行切分,得到有限的数据集进行处理-也就是得到有界流

窗口(window)就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶(bucket)中进行分析

类型

时间窗口(time window)

1.滑动时间窗口(Sliding Windows)

滑动窗口是滚动窗口的一个更广义的形式,滑动窗口由窗口大小和滑动间隔组成

特点:窗口长度固定,可以有重叠

image.png

2.滚动时间窗口(Tumbing windows)

依据固定长度的窗口长度对数据进行切分

特点:时间对齐,窗口长度固定,没有重叠

image.png

3.会话窗口(Session Windows)

由一系列事件组合一个指定时间长度的timeout间隙组成,也就是一段时间没有接收到新数据就会生成新的接口

特点:时间无对齐

image.png

计数窗口(count window)

1.滚动计数窗口

即窗口长度表示数据条数

2.滑动时间窗口

即窗口长度和滑动长度都表示数据条数

API

1.窗口分配器-window()方法

可以用.windos()来定义一个窗口,然后基于此window去做一些聚合或者其他处理操作,window()方法必须用在keyBy之后

更加简单的定义方法是:.timeWindow()和.countWindow()方法,用于定义时间和计数窗口

window()方法接收的输入参数是一个WindowAssigner

WindowAssigner负责将每条输入的数据分发到正确的window中。flink提供的通用WindowAssigner有:滚动窗口(tumbling window),滑动窗口(sliding window),会话窗口(session window),全局窗口(global window)

2.窗口函数(window function)

​window function定义了要对窗口中收集的数据做的计算操作

可以分为两类:

增量聚合函数(incremental aggregation functions)

每条数据到来就进行计算,保持一个简单的状态

ReduceFunction,AggregateFunction

全窗口函数(full window functions)

先把窗口所有数据收集起来,等到计算的时候会遍历所有数据

ProcessWindowFunction

3.其他可选API

.trigger() :触发器

定义window什么时候关闭,触发计算并输出结果

.evictor(): 移除器

定义移除某些数据的逻辑

.allowedLateness(): 允许处理迟到的数据

.sideOutputLateData(): 将迟到的数据放入侧输出流

.getSideOutput():获取侧输出流

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值