flink窗口分组数据错乱

问题

正常的flink 作业运行,带窗口的运行,因为上游业务的影响,导致业务恢复后,积累的kafka 数据瞬时涌到flink 程序里,flink 窗口分钟的,导致这一分钟的值非常大。在折线图上展示出来 ,一眼就会发现问题。

目标

即使发生数据累积,也要按事件发生时间,把数据分到应到的窗口里。

解决问题-方案1

要解决上面这个问题,要从三个方面来处理

使用事件时间

也就是窗口TumblingEventTimeWindows,要用这种才按实际的事件时间去分窗口

迟到时间

其实主要是,allowedLateness(Duration.ofMinutes(1)),对于flink 程序来说,其实积累的元素就相当于迟到的元素,只有这个allowedLateness 时间够长,那迟到的元素就能再次触发窗口的计算

输出幂等

如果之前的窗口已经输出,那如果再输出的话就要下游支持幂等操作

解决问题-方案2

直接通过旁路输出把迟到元素输出,然后可以通过离线操作,或者手工把数据补全。

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wending-Y

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值