对于迟到数据是怎么处理的

最新推荐文章于 2024-01-25 20:11:08 发布

搬砖的小子

最新推荐文章于 2024-01-25 20:11:08 发布

阅读量161

点赞数

分类专栏： Python 文章标签： python linux 开发语言

本文链接：https://blog.csdn.net/longzorg_cn/article/details/128055084

版权

本文介绍了Apache Flink如何处理迟到数据，包括allowedLateness方法用于设置允许延迟的时间，sideOutputLateData保存延迟数据，以及DataStream.getSideOutput获取延迟数据。通过具体代码实例，展示了监听socket数据，设置waterMark，处理延迟数据的过程，强调了allowedLateness仅适用于基于event-time的窗口，并阐述了延迟数据的概念和计算方式。

摘要由CSDN通过智能技术生成

设置允许延迟的时间是通过allowedLateness(lateness: Time)设置

保存延迟数据则是通过sideOutputLateData(outputTag: OutputTag[T])保存

获取延迟数据是通过DataStream.getSideOutput(tag: OutputTag[X])获取

下面先分别讲解这几个方法，再给出具体的实例加深理解

1、allowedLateness(lateness: Time)
def allowedLateness(lateness: Time): WindowedStream[T, K, W] = {
javaStream.allowedLateness(lateness)
this
}

该方法传入一个Time值，设置允许数据迟到的时间，这个时间和waterMark中的时间概念不同。再来回顾一下，

waterMark=数据的事件时间-允许乱序时间值

随着新数据的到来，waterMark的值会更新为最新数据事件时间-允许乱序时间值，但是如果这时候来了一条历史数据，waterMark值则不会更新。总的来说，waterMark是为了能接收到尽可能多的乱序数据。

那这里的Time值呢？主要是为了等待迟到的数据，在一定时间范围内，如果属于该窗口的数据到来，仍会进行计算，后面会对计算方式仔细说明

注意：该方法只针对于基于event-time的窗口，如果是基于processing-time，并且指定了非零的time值则会抛出异常

2、sideOutputLateData(outputTag: OutputTag[T])
def sideOutputLateData(outputTag: OutputTag[T]): WindowedStream[T, K, W] = {
javaStream.sideOutputLateData(outputTag)
this
}

该方法是将迟来的数据保存至给定的outputTag参数，而OutputTag则是用来标记延迟数据的一个对象。

3、DataStream.getSideOutput(tag: OutputTag[X])

通过window等操作返回的DataStream调用该方法，传入标记延迟数据的对象来获取延迟的数据

4、对延迟数据的理解

延迟数据是指：

在当前窗口【假设窗口范围为10-15】已经计算之后，又来了一个属于该窗口的数据【假设事件时间为13】，这时候仍会触发window操作，这种数据就称为延迟数据。

那么问题来了，延迟时间怎么计算呢？

假设窗口范围为10-15，延迟时间为2s，则只要waterMark<15+2，并且属于该窗口，就能触发window操作。而如果来了一条数据使得waterMark>=15+2，