Flink 时间语义
1 时间语义介绍
-
Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳。
-
Ingestion Time:是数据进入 Flink 的时间。
-
Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器
相关,默认的时间属性就是 Processing Time。
1.1 eventTime引入
- 在 Flink 的流式处理中,绝大部分的业务都会使用 eventTime,一般只在eventTime 无法使用时,才会被迫使用 ProcessingTime 或者 IngestionTime。
- 如果要使用 EventTime,那么需要引入 EventTime 的时间属性,引入方式如下所
示:
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 设置时间语义, 事件时间,默认延迟200毫秒
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
2 Watermark 与 eventTime
DataStream<Tuple3<String, Integer, Long>> dataStream = env.addSource(kafkaConsumer)
.map(new MyMapFunction())
// 设置延迟1s
.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<Tuple3<String, Integer, Long>>(Time.seconds(1)) {
// 时间语义
@Override
public long extractTimestamp(Tuple3<String, Integer, Long> stringIntegerLongTuple3) {
// 事件时间 一般以毫秒为单位
return stringIntegerLongTuple3.f2;
}
});