Flink WaterMark机制白话分析

最近遇见一个流处理的数据严重迟到乱序的场景,基于Saprk Streaming开发的统计用户页面停留时间。使用的思想是:迟到数据的时间补偿机制。由于Spark不支持乱序的支持,所以自行实现了一个容器保存一定量的历史数据,最后对迟到的数据插到历史容器中,对插入数据的位置进行局部计算求补偿时间最后添加到累计停留时间中,大概这个思想。有时间会分享出来。这个场景要我想起了Flink对乱序支持的机制,因为又看了看Flink的WaterMark,将自己的理解记录下来,方便日后需要时候翻出来看看。


情况1:




情况2:



结论:


补充:说实话看了很多有关Flink Watermark的博文,可能个人能力薄弱理解能力差的原因吧,看的不是很清晰很直观。我把我个人觉着看过的觉着不错的博文写在下方:

http://aitozi.com/2017/09/10/flink-watermark/

https://zhuanlan.zhihu.com/p/20585530



  • 5
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值