Flink 时间语义和Watermark

最新推荐文章于 2023-07-12 17:17:21 发布

taco詹詹

最新推荐文章于 2023-07-12 17:17:21 发布

阅读量191

点赞数

分类专栏： Flink 文章标签： flink 大数据 big data

本文链接：https://blog.csdn.net/qq_28403781/article/details/121096664

版权

Flink 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1.Flink中的时间语义

在这里插入图片描述

Event Time：事件创建时间；
Ingestion Time：数据进入Flink的时间；
Processing Time：执行操作算子的本地系统时间，与机器相关；

Event Time是事件创建的时间。它通常由事件中的时间戳描述，例如采集的日志数据中，每一条日志都会记录自己的生成时间，Flink通过时间戳分配器访问事件时间戳

Flink 时间语义与Watermark及EventTime在window中的使用

在这里插入图片描述

不同的时间语义有不同的应用场合
我们往往更关心事件时间（Event Time）

在这里插入图片描述

这里假设玩游戏，两分钟内如果过5关就有奖励。用户坐地铁玩游戏，进入隧道前已经过3关，在隧道中又过了2关。但是信号不好，后两关通关的信息，等到出隧道的时候（8:23:20）才正式到达服务器。

如果为了用户体验，那么应该按照Event Time处理信息，保证用户获得游戏奖励。

Event Time可以从日志数据的时间戳（timestamp）中提取

2017-11-02 18:27:15.624 INFO Fail over to rm

从TumblingProcessingTimeWindows类里的assignWindows方法，我们可以得知窗口的起点计算方法如下： $$ 窗口起点start = timestamp - (timestamp -offset+WindowSize) % WindowSize $$ 由于我们没有设置offset，所以这里start=第一个数据的时间戳1547718199-(1547718199-0+15)%15=1547718195

计算得到窗口初始位置为Start = 1547718195，那么这个窗口理论上本应该在1547718195+15的位置关闭，也就是End=1547718210

@Override
public Collection<TimeWindow> assignWindows(
  Object element, long timestamp, WindowAssignerContext context) {
  final long now = context.getCurrentProcessingTime();
  if (staggerOffset == null) {
    staggerOffset =
      windowStagger.getStaggerOffset(context.getCurrentProcessingTime(), size);
  }
  long start =
    TimeWindow.getWindowStartWithOffset(
    now, (globalOffset + staggerOffset) % size, size);
  return Collections.singletonList(new TimeWindow(start, start + size));
}

// 跟踪 getWindowStartWithOffset 方法得到TimeWindow的方法
public static long getWindowStartWithOffset(long timestamp, long offset, long windowSize) {
  return timestamp - (timestamp - offset + windowSize) % windowSize;
}

计算修正后的Window输出结果的时间

测试代码中Watermark设置的maxOutOfOrderness最大乱序程度是2s，所以实际获取到End+2s的时间戳数据时（达到Watermark），才认为Window需要输出计算的结果（不关闭，因为设置了允许迟到1min）

所以实际应该是1547718212的数据到来时才触发Window输出计算结果。

.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<SensorReading>(Time.seconds(2)) {
  @Override
  public long extractTimestamp(SensorReading element) {
    return element.getTimestamp() * 1000L;
  }
});


// BoundedOutOfOrdernessTimestampExtractor.java
public BoundedOutOfOrdernessTimestampExtractor(Time maxOutOfOrderness) {
  if (maxOutOfOrderness.toMilliseconds() < 0) {
    throw new RuntimeException(
      "Tried to set the maximum allowed "
      + "lateness to "
      + maxOutOfOrderness
      + ". This parameter cannot be negative.");
  }
  this.maxOutOfOrderness = maxOutOfOrderness.toMilliseconds();
  this.currentMaxTimestamp = Long.MIN_VALUE + this.maxOutOfOrderness;
}
@Override
public final Watermark getCurrentWatermark() {
  // this guarantees that the watermark never goes backwards.
  long potentialWM = currentMaxTimestamp - maxOutOfOrderness;
  if (potentialWM >= lastEmittedWatermark) {
    lastEmittedWatermark = potentialWM;
  }
  return new Watermark(lastEmittedWatermark);
}

为什么上面输入中，最后连续四条相同输入，才触发Window输出结果？

Watermark会向子任务广播
- 我们在map才设置Watermark，map根据Rebalance轮询方式分配数据。所以前4个输入分别到4个slot中，4个slot计算得出的Watermark不同（分别是1547718199-2，1547718201-2，1547718202-2，1547718205-2）
Watermark传递时，会选择当前接收到的最小一个作为自己的Watermark
- 前4次输入中，有些map子任务还没有接收到数据，所以其下游的keyBy后的slot里watermark就是Long.MIN_VALUE（因为4个上游的Watermark广播最小值就是默认的Long.MIN_VALUE）
- 并行度4，在最后4个相同的输入，使得Rebalance到4个map子任务的数据的currentMaxTimestamp都是1547718212，经过getCurrentWatermark()的计算（currentMaxTimestamp-maxOutOfOrderness），4个子任务都计算得到watermark=1547718210，4个map子任务向4个keyBy子任务广播watermark=1547718210，使得keyBy子任务们获取到4个上游的Watermark最小值就是1547718210，然后4个KeyBy子任务都更新自己的Watermark为1547718210。
根据Watermark的定义，我们认为>=Watermark的数据都已经到达。由于此时watermark >= 窗口End，所以Window输出计算结果（4个子任务，4个结果）

窗口起始点和偏移量

flink-Window Assingers(窗口分配器)中offset偏移量

时间偏移一个很大的用处是用来调准非0时区的窗口，例如:在中国你需要指定一个8小时的时间偏移。

以上资源均来自尚硅谷

taco詹詹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink 时间语义和Watermark

1.Flink中的时间语义 Event Time：事件创建时间； Ingestion Time：数据进入Flink的时间； Processing Time：执行操作算子的本地系统时间，与机器相关； Event Time是事件创建的时间。它通常由事件中的时间戳描述，例如采集的日志数据中，每一条日志都会记录自己的生成时间，Flink通过时间戳分配器访问事件时间戳Flink 时间语义与Watermark及EventTime在window中的使用不同的时间语义有.
复制链接

扫一扫