flink窗口分类

Dataflow模型

Dataflow模型提供了一种统一流处理和批处理的系统框架。
Dataflow模型对于无序流数据,提供了一套基于事件时间、水位线和延迟处理的机制,从而实现窗口聚合计算的能力,以实现流数据计算的正确性、高吞吐和延迟3者的平衡。

数据流图

数据流图有逻辑数据流图(节点表示算子)和物理数据流图(节点表示任务)。
数据分配策略:

  • 转发分配策略:将流数据从一个任务节点直接分配到下一个任务节点。
  • 基于key分配策略:对数据分区,保证同一key的数据由同一任务进行计算。
  • 随机分配策略:将数据随机的分配到下游的并行任务中去,以实现负载均衡的目的,从而充分利用集群中的不同节点进行数据并行处理。
  • 广播分配策略:将上个任务节点中所有数据,发送到下一个算子中所有并行的任务节点上。延迟大,代价高。

流处理

  • 流数据源:一个与外部系统进行交互的接口,他可以从外部系统获取原始数据。
  • 流数据转换:获取数据后,内部根据业务逻辑对数据流进行转换操作。
  • 流数据输出:将计算结果输出,以供外部系统使用。

窗口

  1. 滚动窗口(Tumbling Window)
    将无界数据流按固定大小进行拆分成不同窗口,不同窗口中的事件数据没有交叉
    滚动窗口分为基于数量和时间(左闭右开)的滚动窗口。
  2. 滑动窗口(Sliding Window)
    有两个参数,一个窗口大小,一个滑动大小。滑动窗口将事件数据分配到固定大小的窗口中,但不同窗口的元素可能有交叉
    滑动窗口分为基于数量和时间(左闭右开)的滑动窗口。
  3. 会话窗口(Session Window)
    用一个时间间隙阈值来区分不同窗口。当事件数据时间间隙超过一定阈值(session gap)时,就会划分不同窗口。
  4. 全局窗口(Global Window)
    所有相同的key都会生成一个相关的窗口,所以窗口没有起止时间,需要自己实现Trigger的触发计算,如果不实现Trigger则窗口永远不会进行计算。同时还需要指定相应的数据清理机制,如果不进行数据清理数据一直会停留在内存中。所以使用Global Window要较为慎重。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值