Flink中的时间语义与Watermark

1 Flink中的时间语义

1.1 基本概念

      在Flink的流式处理中,会涉及到时间的不同概念,如下图:
在这里插入图片描述

图1 Flink时间概念

      Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如日志数据中的每一条记录都会带有时间戳,Flink通过时间戳分配器访问事件时间戳。
      Ingestion Time:是数据进入Flink的时间。
      Processing Time:是本地机器处理时间操作算子的系统时间,也是Flink默认的时间属性。
      例如一条日志Flink的时间为2020-05-12 10:00:00.123,到达window的系统时间为2020-05-12 10:00:01.234,具体的日志内容为:2020-05-11 20:25:16.624 INFO Fail over to rm2。
      对于业务来说,要统计1min内的故障日志数量,选取Event Time最优意义。原因:根据日志的生成时间统计更为合理。

1.2 Event Time的引入

      在Flink的流式处理中,绝大部分的业务都会使用Event Time,一般只在Event Time无法使用时,才会被迫使用Processing Time和Ingestion Time。
      如果要使用Event Time,那么需要引入Event Time的时间属性,引入方式如下:

val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调用时刻开始给env创建的每一个stream追加时间特征
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

2 Watermark

2.1 基本概念

      流处理是从事件产生开始,流经Source到Operator。可想而知,中间是需要过程和时间的。在大部分情况下,流到Operator的数据都是按照事件产生的时间顺序来的。然而,在高并发和分布式等情况下,会出现乱序的问题。所谓乱序,就是值Flink接收到的事件的先后顺序不是严格按照事件的Event Time顺序排列的。
在这里插入图片描述

图2 数据乱序

      一旦出现乱序,如果只根据Event Time决定window的运行,我们不能明确数据是否全部到位,但又能无限期地等下去,此时必须要有一个机制来保证一个特定的时间后,必须触发window去进行计算了,这个机制就是watermark。
      (1)watermark是一种衡量Event Time进展的机制。
      (2)watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用watermark机制结合window来实现。
      (3)数据流中的watermark用于表示timestamp小于watermark的所有数据都已经到达。因此,window的执行也是由watermark触发的。
      (4)watermark可以理解成一个延迟触发机制,我们可以设置watermark的延时时长为t,每次系统会校验已经到达的数据中最大的maxEventTime,然后认定eventTime小于maxEventTime-t的所有数据都已经到达,如果有窗口的停止时间等于maxEventTime-t,那么这个窗口被触发执行。
      有序流的watermark如下图:
在这里插入图片描述

图3 有序数据的watermark

      乱序流的watermark如下图:
在这里插入图片描述

图4 乱序数据的watermark

      当Flink接收到数据时,会按照一定的规则生成watermark,这条watermark就等于当前所有到达数据中的maxEventTime-延迟时长,也就是说,watermark是由数据携带的,一旦数据携带的watermark比当前未触发的窗口的停止时间要晚,那么就会触发相应窗口的执行。由于watermark是由数据携带的,因此,如果运行过程中无法获取新的数据,那么没有被触发的窗口将永远都不被触发。
      上图中,我们设置的允许最大延迟到达时间为2s,所以时间戳为7s的事件对应的watermark是5s,时间戳为12s的事件对应的watermark是10s。如果我们的窗口1是1s5s,窗口2是6s10s,那么时间戳为7s的事件到达时的watermark恰好触发窗口1,时间戳为12s的事件到达时的watermark恰好触发窗口2。
      Watermark就是触发前一窗口的“关窗时间”,一旦触发关窗那么以当前时刻为准在窗口范围内的所有数据都会收入窗中。
      只要没有达到水位,那么不管现实中的时间推进了多久都不会触发关窗。

2.2 watermark的引入

      Watermark的引入很简单,对于乱序数据,最常见的引用方式如下:

dataStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[SensorReading](
Time.milliseconds(1000)) {
   
          override def extractTimestamp(t: SensorReading): Long = {
   
          t.timeStamp * 1000
        }
    })

      上面的代码中设置的延迟时间为1s。
      EventTime的使用一定是指定数据源中的时间戳。否则,程序无法知道事件的时间是什么(数据源里的数据没有时间戳的话,就只能使用Processing Time了)。
      我们看到上面的例子中创建了一个看起来有点复杂的类,这个类实现,wishing就是分配时间戳的接口。Flink暴露了TimestampAssigner接口供我们实现,使得我们可以自定义如何从事件数据中抽取时间戳。

// 从调用时刻开始给env创建的每一个stream追加时间特性
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
val dataStream = inputStream.map(
      data => {
   
        val dataArr = data.split(",")
        SensorReading(dataArr(0).trim,dataArr(1).trim.toLong,dataArr(2).trim.toDouble)
      }
    )
      .assignTimestampsAndWatermarks(new MyAssigner(
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值