(七)Flink Watermark

Flink 的 Watermark 是用来标识数据流中的一个时间点。Watermark 的设计是为了解决乱序数据处理的问题,尤其是涉及到多个分区的 Kafka 消费者时。在 Watermark 的作用下,即使某些数据出现了延迟到达的情况,也不会导致整个处理流程的中断。此外,Watermark 还能防止过期的数据被处理,从而提高了数据处理的准确性。

具体来说,Watermark 有以下两个主要的功能:

  • 解决乱序问题:通过设置 Watermark,可以确保处理过程不会因为等待数据而无限期地阻塞。这样,即使在数据出现延迟的情况下,也能及时处理后续的数据,而不是等到所有的数据都到达之后再开始处理。

  • 允许一定程度的延迟:Watermark 可以在一定程度上接受数据的延迟到达,但同时会有一个设定的最大延迟时间。当数据流中的事件时间戳大于等于水印加上这个最大延迟时间时,就会触发相应的计算操作。这样可以避免因长时间的延迟而导致的不必要的计算开销。

目录

Watermark 策略简介

Watermark 生成策略

1、内置策略

2、自定义 Watermark 策略

处理空闲数据源

Watermark 策略应用

总结


Watermark 策略简介

为了使用事件时间语义,Flink 应用程序需要知道事件时间戳对应的字段,通常通过使用 TimestampAssigner API 从元素中的某个字段去访问/提取时间戳。时间戳的分配与 Watermark 的生成是齐头并进的,其可以告诉 Flink 应用程序事件时间的进度。可以通过指定 WatermarkGenerator 来配置 Watermark 的生成方式。

使用 Flink API 时需要设置一个同时包含 TimestampAssigner 和 WatermarkGenerator 的 Watermark

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值