Flink之Watermark生成策略

在Flink1.12以后,watermark默认是按固定频率周期性的产生.
在Flink1.12版本以前是有两种生成策略的:

  • AssignerWithPeriodicWatermarks周期性生成watermark
  • AssignerWithPunctuatedWatermarks[已过时] 按照指定标记性事件生成watermark

新版本API内置的watermark策略

  • 单调递增的watermark生成策略,也就是紧跟最大事件时间(完全不容忍乱序)

    WatermarkStrategy.forMonotonousTimestamps();
    
  • 允许乱序的watermark生成策略,最大事件时间 - 容错时间

    WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(3));
    
  • 自定义的watermark生成策略

    WatermarkStrategy.forGenerator(new WatermarkGenerator(){...})
    
  • Monotonous策略图解
    image-20230927163149513
    这里时间戳为1,2,3的数据正常进入到0~5window
    image-20230927163917565
    当时间戳为7的数据进来后,就会将watermark更新为7,跟新后0~5window就会进行计算,然后销毁
    image-20230927164412905
    时间为4,5,6的数据准备进入到5~10window时发现不满足进入条件,这时就会将这三条数据判定为迟到数据,然后就会将这三条数据舍弃掉

  • BoundedOutOfOrderness策略图解
    image-20230927170716513
    时间戳为1,2,3正常进入到0~ 5window,由于设置的容错时间为3,所以当时间戳为3的数据到达之后,watermark更新为0(3 - 3).
    image-20230927171113194
    当时间戳为7的数据到达之后,则会进入5~10window当中,watermark更新为4(7 - 3)
    image-20230927171829338
    因为watermark7到达时只更新到了4,所以0~5window还没有进行计算,当4,5,6到达之后还可以正常进入到0~5window.
    image-20230927172012825
    当时间戳为8的数据到达之后进入到5~10window,更新watermark5(8 - 3),这时0~5window触发计算并销毁.

关于自定义的策略就没什么可说的了,这个要根据用户自己定义的逻辑生成watermark,以实际业务需求为基准.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
FlinkWatermark是一种用于衡量Event Time进展的机制。它用于处理实时数据的乱序问题,并常与窗口结合使用来实现事件的有序处理。Watermark可以被理解为一种时间戳标记,表示在该标记之前的事件都已经到达,因此可以触发窗口计算。Watermark生成可以通过实现WatermarkGenerator接口来实现,该接口包含了onEvent和onPeriodicEmit两个方法来生成Watermark。在onEvent方法,可以观察流事件数据,并在获取到带有Watermark信息的特殊事件元素时发出Watermark。而在onPeriodicEmit方法,可以根据需要周期性地发出Watermark。同时,在Flink,还可以通过WatermarkStrategy接口来定义Watermark生成策略,该接口包含了createTimestampAssigner方法用于实例化一个可分配的时间戳生成器,以及createWatermarkGenerator方法用于实例化一个Watermark生成器。总之,WatermarkFlink起到了衡量事件时间进展和触发窗口计算的重要作用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Flink:Watermark](https://blog.csdn.net/qq_24325581/article/details/117515189)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [1分钟理解FlinkWatermark机制](https://blog.csdn.net/m0_68470434/article/details/126742410)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值