Flink乱序数据处理过程解析

Vincer_DB

已于 2023-04-10 15:47:10 修改

阅读量1k

点赞数

分类专栏： Flink 大数据文章标签： flink 大数据

于 2019-10-26 13:20:08 首次发布

本文链接：https://blog.csdn.net/qq_40713537/article/details/102755370

版权

大数据同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

Flink

6 篇文章 0 订阅

订阅专栏

1.乱序事件产生的原因以及乱序事件处理的必要性

流数据流经source，再到operator，由于网络延迟等原因，导致乱序的产生（这里的乱序是指事件产生的时间EventTime和到达处理机制进行处理的顺序不一样），特别是使用kafka的话，多个分区的数据source之后无法保证有序。所以在进行window计算的时候，如果有涉及时间的，比如（前一小时的访问量），必须要有个机制来保证操作结果的相对准确性。

2.Flink保证事件事件和操作时间相对一致的机制

2.1.warterMark

在不添加EventTime，只有窗口操作的情况下，Flink实时性得到了最大的发挥，但是于此同时，操作结果也非常不准确，只要过来的数据有达到窗口的结束时间window_end_time的，将会马上触发窗口，那么在接收数据是乱序的情况下，将会导致此窗口的数据大部分的丢失

warter是用来定义延迟触发窗口操作的时间的，假设窗口时00：00~00：05，warter为1分钟，那么相当于将接收这个窗口中的数据的时间向后延长了1分钟，自然操作这些数据的时间也会延迟1分钟。这是为了形象的理解，实际上时warterMark倒退了1分钟，等到wartermark的时间真正达到和window_end_time时间相同时，才触发窗口。

2.2.allowedLateness

在添加warterark之后，保证了绝大多数数据的准确性，但是warterMark的时间也不能设置过长，因为flink框架的特点就是低延迟，设置过高不利于保证实时性。因此，我们一般会将warterMark设置在一个较小但是又能保证绝大多数数据都会被计算。那么剩下仍旧有少数数据没有在此事件内到达，但是我们没有在warterMark这段时间内接收到，allowedLateness是为了保证warter之后短时间内的数据可以被计算的，在window_end_time+watermark 至window_end_time+watermark+allowedLateness的属于此窗口的数据，只要来一次就会和window中的其它数据被计算一次，这样保证了短期内对计算结果的更新。

2.3.OutputLateData

window_end_time+watermark+allowedLateness之后的极少量数据，将会被放入OutputLateData进行处理，不会主动并入之前的计算结果进行计算。

如下，是刚才花了很久时间画出来的一张很丑的图。。。。。。。。。。。。。。。

Vincer_DB

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Flink乱序数据处理过程解析

warter是用来定义延迟触发窗口操作的时间的，假设窗口时00：00~00：05，warter为1分钟，那么相当于将接收这个窗口中的数据的时间向后延长了1分钟，自然操作这些数据的时间也会延迟1分钟。在不添加EventTime，只有窗口操作的情况下，Flink实时性得到了最大的发挥，但是于此同时，操作结果也非常不准确，只要过来的数据有达到窗口的结束时间window_end_time的，将会马上触发窗口，那么在接收数据是乱序的情况下，将会导致此窗口的数据大部分的丢失。
复制链接

扫一扫