Flink Interval Join源码理解

参考: https://www.jianshu.com/p/179beca9f307

interval join :两条数据流+between边界+过期数据清理

demo:

 下面看下源码实现

intervalJoin 属于 KeyedStream,源码部分也在KeyedStream中

 

  • KeyedStream的intervalJoin创建并返回IntervalJoin
  • IntervalJoin提供了between操作,用于设置interval的lowerBound及upperBound,即between边界区间(默认闭区间),between操作创建并返回IntervalJoined
  •  IntervalJoined提供了process操作,process操作里头创建了IntervalJoinOperator

在这里return的是 left.connect(right).keyBy(keySelector1, keySelector2) , 因为left.connect(right)返回的是 ConnectedStreams, keySelector1/2是指demo中两个数据流的keyBy条件,类似与flinksql join中的 on

换类了,现在是IntervalJoinOperator类中了,重点也就在IntervalJoinOperator

 

  • IntervalJoinOperator继承了AbstractUdfStreamOperator抽象类,实现了TwoInputStreamOperatorTriggerable接口
  • IntervalJoinOperator重写了AbstractUdfStreamOperator(StreamOperator定义)的open、initializeState方法,在initializeState中,创建了leftBuffer和rightBuffer两个MapState,key为Long表示时间时间戳,List<BufferEntry<T>>表示该时刻到来的数据记录,当左流和右流有数据到达时,会分别调用processElement1()和processElement2()方法,它们都调用了processElement()方法
  • processElement方法中实现了 (1)根据数据时间戳和watermark判断数据是否late,如果late就return,否则就添加到buffer中     (2)遍历otherBuffer,(也就是左右mapState,一个是buffer,另外个就是otherBuffer),判断时间是否满足要求,即判断有数据在边界内(ourTimestamp + relativeLowerBound <= timestamp <= ourTimestamp + relativeUpperBound),如果在就调用 collect方法   (3)collect方法也就是我们demo中定义的process方法,对两条流匹配上的数据进行数据  (4)计算这条数据的cleanupTime,调用internalTimerService.registerEventTimeTimer注册清理该数据的timer,到时候就把这条数据从state里清除

所有intervalJoin的很多功能都是在IntervalJoinOperator中实现的

整体总结下来就是 IntervalJoin 里设置上下边界,后在IntervalJoined中进行双流connect,然后在IntervalJoinOperator中实现数据的匹配以及设置数据的过期定时器timer等等。

https://blog.csdn.net/qq_34864753/article/details/111183556 在这篇博客里介绍了intervalJoin的watermark生成以及状态的清理机制,有兴趣的可以看看

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flink中的Interval Join是一种流处理中常用的操作,用于在两个流之间基于时间窗口进行连接。下面是对FlinkInterval Join码分析: 1. 首先,用户需要指定两个输入流以及连接条件和时间窗口大小等参数来创建一个Interval Join操作。 2. 在Flink中,Interval Join是通过CoProcessFunction来实现的。CoProcessFunction是一个可以处理两个输入流的函数,可以用于实现各种复杂的操作。 3. 在Interval Join的实现中,通过继承RichCoProcessFunction类,重写processElement1和processElement2方法来处理两个输入流的元素。 4. 在processElement1和processElement2方法中,可以访问输入元素以及当前的时间信息,并根据时间窗口进行连接操作。 5. 对于每个输入元素,Interval Join会根据连接条件和时间窗口对两个输入流进行连接。连接的结果可以通过OutputTag发送到侧输出流,或者直接通过Collector发送到主输出流。 6. Interval Join的关键部分是如何处理时间窗口的匹配。在Flink中,可以使用KeyedState来存储和管理窗口状态。KeyedState是Flink提供的一种键值对状态,可以在函数中进行读写操作。 7. 在processElement1和processElement2方法中,可以使用KeyedState来存储和检索窗口状态。可以根据窗口大小和时间戳等信息将元素放入合适的窗口中,并在后续处理中进行匹配和连接操作。 8. 除了processElement1和processElement2方法外,还可以重写其他方法来处理定时器和清理状态等操作。这些方法可以用于管理时间窗口的生命周期和释放资。 总体而言,Flink中的Interval Join是通过CoProcessFunction和KeyedState来实现的。它可以在流处理中进行灵活的连接操作,并根据时间窗口来控制连接的精度和时效性。通过理解Interval Join码实现,可以更好地使用和优化这个功能,以满足不同业务场景下的需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值