Flink-时间语义与Wartmark及EventTime在Window中的使用

代码GitHub:https://github.com/SmallScorpion/flink-tutorial.git

Flink中的时间语义

Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。
Ingestion Time:是数据进入Flink的时间。
Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是Processing Time。

在这里插入图片描述

例子

某些应用场合,不应该使用 Processing Time,Event Time 可以从日志数据的时间戳(timestamp)中提取
在这里插入图片描述
例如,一条日志进入Flink的时间为2017-11-12 10:00:00.123,到达Window的系统时间为2017-11-12 10:00:01.234,日志的内容如下:

2017-11-02 18:37:15.624 INFO Fail over to rm2

对于业务来说,要统计1min内的故障日志个数,哪个时间是最有意义的?—— eventTime,因为我们要根据日志的生成时间进行统计。
在这里插入图片描述

EventTime的引入

在Flink的流式处理中,绝大部分的业务都会使用eventTime,一般只在eventTime无法使用时,才会被迫使用ProcessingTime或者IngestionTime。如果要使用EventTime,那么需要引入EventTime的时间属性,引入方式如下所示:

val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给env创建的每一个stream追加时间特征
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

在这里插入图片描述

Watermark的产生背景

我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的,虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、分布式等原因,导致乱序的产生,所谓乱序,就是指Flink接收到的事件的先后顺序不是严格按照事件的Event Time顺序排列的。

在这里插入图片描述

那么此时出现一个问题,一旦出现乱序,如果只根据eventTime决定window的运行,我们不能明确数据是否全部到位,但又不能无限期的等下去,此时必须要有个机制来保证一个特定的时间后,必须触发window去进行计算了,这个特别的机制,就是Watermark。

在这里插入图片描述

水位线(Watermark)

  1. Watermark是一种衡量Event Time进展的机制。
  2. Watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark机制结合window来实现。
  3. 数据流中的Watermark用于表示timestamp小于Watermark的数据,都已经到达了,因此,window的执行也是由Watermark触发的。
  4. Watermark可以理解成一个延迟触发机制,我们可以设置Watermark的延时时长t,每次系统会校验已经到达的数据中最大的maxEventTime,然后认定eventTime小于maxEventTime - t的所有数据都已经到达,如果有窗口的停止时间等于maxEventTime – t,那么这个窗口被触发执行。
  5. watermark 用来让程序自己平衡延迟和结果正确性

有序流的Watermarker如下图所示:(Watermark设置为0)

在这里插入图片描述

乱序流的Watermarker如下图所示:(Watermark设置为2)

在这里插入图片描述

小结:
在这里插入图片描述

WaterMark的特点

  1. watermark 是一条特殊的数据记录
  2. watermark 必须单调递增,以确保任务的事件时间时钟在向前推进,而不是在后退
  3. watermark 与数据的时间戳相关
    在这里插入图片描述

WaterMark的传递

在这里插入图片描述

WaterMark引入

Event Time的使用一定要指定数据源中的时间戳。否则程序无法知道事件的事件时间是什么(数据源里的数据没有时间戳的话,就只能使用Processing Time了)
在这里插入图片描述

TimestampAssigner

AssignerWithPeriodicWatermarks:

  1. 周期性的生成 watermark:系统会周期性的将 watermark 插入到流中
  2. 默认周期是200毫秒,可以使用 ExecutionConfig.setAutoWatermarkInterval() 方法进行设置
  3. 升序和前面乱序的处理 BoundedOutOfOrderness ,都是基于周期性 watermark 的。

AssignerWithPunctuatedWatermarks :

  1. 没有时间周期规律,可打断的生成 watermark

assignTimestampsAndWatermarks底层调用:
在这里插入图片描述
BoundedOutOfOrdernessTimestampExtractor底层生成WaterMark为周期性
在这里插入图片描述

WaterMark的设定

在这里插入图片描述

自定义一个周期性的时间戳抽取

产生watermark的逻辑:每隔5秒钟,Flink会调用AssignerWithPeriodicWatermarks的getCurrentWatermark()方法。如果方法返回一个时间戳大于之前水位的时间戳,新的watermark会被插入到流中。这个检查保证了水位线是单调递增的。如果方法返回的时间戳小于等于之前水位的时间戳,则不会产生新的watermark。

import com.atguigu
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值