Flink中的时间语义与Watermark概念

一、时间语义

1.1 时间语义类型

在这里插入图片描述

  • Event Time:事件创建的时间
  • Ingestion Time:数据进入Flink的时间
  • Processing Time:执行操作算子的本地系统时间,与机器相关

问题:哪种时间语义更重要?

不同的时间语义有不同的应用场合,通常更关心的是事件时间
在这里插入图片描述
某些应用场合,不应该使用Processing Time。Event Time可以从日志数据的时间戳(timestamp)中提取
在这里插入图片描述

1.2 实际应用

public class WindowTest3_EventTimeWindow {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); //默认是处理时间

        // socket文本流
        DataStream<String> inputStream = env.socketTextStream("localhost", 7777);

        // 转换成SensorReading类型
        // java8 中的lamda表达式
        DataStream<SensorReading> dataStream = inputStream.map(line -> {
            String[] fields = line.split(",");
            return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
        });

        env.execute();
    }
}

二、水位线(Watermark)

乱序数据的影响

  • 当 Flink 以 Event Time 模式处理数据流时,它会根据数据里的时间戳来处理基于时间的算子
  • 由于网络、分布式等原因,会导致乱序数据的产生
    在这里插入图片描述

怎样避免乱序数据带来的计算不正确问题呢?

遇到一个时间戳达到了窗口关闭时间,不应该立刻触发窗口计算,而是等待一段时间,等迟到的数据来了再关闭窗口

  • Watermark是一种衡量Event Time进展的机制,可以设定延迟触发
  • Watermark是用于处理乱序事件的,处理乱序事件正确的方法,通常是用Watermark机制结合window来实现
  • 数据流中的Watermark用于表示 timestamp小于Watermark 的数据,都已经到达了。因此,window的执行也是由Watermark触发的
  • watermark用来让程序自己平衡延迟和结果正确性

2.1 Flink三种方法保证数据准确性(三重保证)

(1)Watermark,可以保证 几百毫秒内 的乱序数据的准确性
(2)在(1)的基础上,可以再使用 allowedLateness 设置等待时间
(3)在(2)的基础上,可以再使用侧输出流

2.2 Watermark的特点

  • Watermark是一条特殊的数据记录
  • Watermark必须单调递增,以确保任务的事件时间时钟在向前推进,而不是在后退
  • Watermark与数据的时间戳相关
    在这里插入图片描述

2.3 Watermark的传递

多个分区Watermark不同时,取最小值的Watermark,再将新的Watermark广播给下游算子;Watermark不更新时,不用广播
在这里插入图片描述

2.4 Watermark的引入

Event Time的使用一定要指定数据源中的时间戳;
调用dataStream.assignTimestampsAndWatermarks方法,传入一个BoundedOutOfOrdernessTimestampExtractor,即可指定Watermark

public class WindowTest4_UDFTimeStampAssigner {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); //默认是处理时间

        // socket文本流
        DataStream<String> inputStream = env.socketTextStream("localhost", 7777);

        // 转换成SensorReading类型
        // java8 中的lamda表达式
        DataStream<SensorReading> dataStream = inputStream.map(line -> {
            String[] fields = line.split(",");
            return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
        });

        //升序数据设置事件时间和watermark
        dataStream.assignTimestampsAndWatermarks(new AscendingTimestampExtractor<SensorReading>() {
            @Override
            public long extractAscendingTimestamp(SensorReading element) {
                return element.getTimestamp() * 1000L;
            }
        });

        //乱序数据设置时间戳和watermark
        //BoundedOutOfOrdernessTimestampExtractor 有界乱序时间戳提取器
        dataStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<SensorReading>(Time.seconds(2)) {
            @Override
            public long extractTimestamp(SensorReading sensorReading) {
                return sensorReading.getTimestamp() * 1000L;
            }
        });

        env.execute();
    }
}

自定义的周期分配器:

public static class MyPeriodicAssigner implements AssignerWithPeriodicWatermarks<SensorReading>{
   private Long bound = 60 * 1000L; //延迟一分钟
   private Long maxTs = Long.MIN_VALUE; //当前最大时间戳

   @Nullable
   @Override
   public Watermark getCurrentWatermark() {
       return new Watermark(maxTs - bound);
   }

   @Override
   public long extractTimestamp(SensorReading element, long previousElementTimestamp) {
      maxTs = Math.max(maxTs, element.getTimestamp());
      return element.getTimestamp();
   }
}

自定义的断点分配器:

//断点分配器
public static class MyPunctuatedAssigner implements AssignerWithPunctuatedWatermarks<SensorReading>{
   private Long bound = 60 * 1000L; //延迟一分钟

   @Nullable
   @Override
   public Watermark checkAndGetNextWatermark(SensorReading lastElement, long extractedTimestamp) {
       if(lastElement.getId().equals("sensor_1")){
           return new Watermark(extractedTimestamp - bound);
       }else {
           return null;
       }
   }

   @Override
   public long extractTimestamp(SensorReading element, long previousElementTimestamp) {
      return element.getTimestamp();
   }
}

2.5 Watermark的设定原则

  • 在Flink中,watermark由应用程序开发人员生成,这种通常需要对相应的领域有一定的了解
  • 如果watermark设置的延迟太久,收到结果的速度可能就会很慢,解决办法是在水位线到达之前输出一个近似结果
  • 如果watermark到达太早,则可能使收到错误结果,不过Flink处理迟到数据的机制可以解决这个问题

事件时间语义下的窗口测试代码1:

public class WindowTest3_EventTimeWindow {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); //默认是处理时间

        // socket文本流
        DataStream<String> inputStream = env.socketTextStream("localhost", 7777);

        // 转换成SensorReading类型,分配时间戳和watermark
        // java8 中的lamda表达式
        DataStream<SensorReading> dataStream = inputStream.map(line -> {
            String[] fields = line.split(",");
            return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
        });

     /*   //升序数据设置事件时间和watermark
        dataStream.assignTimestampsAndWatermarks(new AscendingTimestampExtractor<SensorReading>() {
            @Override
            public long extractAscendingTimestamp(SensorReading element) {
                return element.getTimestamp() * 1000L;
            }
        });*/

        //乱序数据设置时间戳和watermark
        //BoundedOutOfOrdernessTimestampExtractor 有界乱序时间戳提取器
        dataStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<SensorReading>(Time.seconds(2)) {
            @Override
            public long extractTimestamp(SensorReading sensorReading) {
                return sensorReading.getTimestamp() * 1000L;
            }
        });

        // 基于事件时间的开窗聚合,统计15秒内温度的最小值
        SingleOutputStreamOperator<SensorReading> minTempStream  = dataStream.keyBy("id")
                .timeWindow(Time.seconds(15))
                .minBy("temperature");

        minTempStream.print("minTemp");
        env.execute();
    }
}

事件时间语义下的窗口测试代码2----迟到数据处理:

public class WindowTest3_EventTimeWindow {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); //默认是处理时间

        // socket文本流
        DataStream<String> inputStream = env.socketTextStream("localhost", 7777);

        // 转换成SensorReading类型,分配时间戳和watermark
        // java8 中的lamda表达式
        DataStream<SensorReading> dataStream = inputStream.map(line -> {
            String[] fields = line.split(",");
            return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
        });

     /*   //升序数据设置事件时间和watermark
        dataStream.assignTimestampsAndWatermarks(new AscendingTimestampExtractor<SensorReading>() {
            @Override
            public long extractAscendingTimestamp(SensorReading element) {
                return element.getTimestamp() * 1000L;
            }
        });*/

        //乱序数据设置时间戳和watermark
        //BoundedOutOfOrdernessTimestampExtractor 有界乱序时间戳提取器
        dataStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<SensorReading>(Time.seconds(2)) {
            @Override
            public long extractTimestamp(SensorReading sensorReading) {
                return sensorReading.getTimestamp() * 1000L;
            }
        });

        OutputTag<SensorReading> outputTag = new OutputTag<SensorReading>("late") {
        };
        // 基于事件时间的开窗聚合,统计15秒内温度的最小值
        SingleOutputStreamOperator<SensorReading> minTempStream  = dataStream.keyBy("id")
                .timeWindow(Time.seconds(15))
                .allowedLateness(Time.minutes(1))
                .sideOutputLateData(outputTag)
                .minBy("temperature");

        minTempStream.print("minTemp");
        minTempStream.getSideOutput(outputTag).print("late");
        env.execute();
    }
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值