Flink之Watermark
一、Flink 中的时间定义
-
处理时间(Processing Time)
处理时间的概念非常简单,就是指执行处理操作的机器的系统时间。
-
事件时间(Event Time)
事件时间,是指每个事件在对应的设备上发生的时间,也就是数据生成的时间。
二、水位线(Watermark)
2.1、生成水位线
2.1.1 有序流
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(2);
SingleOutputStreamOperator<Event> inputDS = env.fromElements(
new Event("Mary", "./home", 2000L))
// 有序流watermark生成
.assignTimestampsAndWatermarks(WatermarkStrategy.<Event>forMonotonousTimestamps().withTimestampAssigner(new SerializableTimestampAssigner<Event>() {
@Override
public long extractTimestamp(Event element, long recordTimestamp) {
return element.timestamp;
}
})
);
2.1.2 乱序流
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(2);
SingleOutputStreamOperator<Event> inputDS = env.fromElements(
new Event("Mary", "./home", 2000L))
// 乱序流watermark生成
.assignTimestampsAndWatermarks(WatermarkStrategy.<Event>forBoundedOutOfOrderness(Duration.ofSeconds(2)).withTimestampAssigner(new SerializableTimestampAssigner<Event>() {
@Override
public long extractTimestamp(Event element, long recordTimestamp) {
return element.timestamp;
}
})
);
本文介绍了Flink中的时间定义,包括处理时间和事件时间。重点讲解了Watermark的概念,如何为有序流和乱序流生成Watermark,例如使用`forMonotonousTimestamps()`和`forBoundedOutOfOrderness()`策略,并通过`TimestampAssigner`提取事件时间。
2046

被折叠的 条评论
为什么被折叠?



