Flink-1.12 - 之 DataStream Join
本文主要以flink-1.12来讲述Flink DataStream Api中支持的Join。
DataStream Api提供2种类型的join方式。
-
Window Join
- Tumbling Window Join
- Sliding Window Join
- Session Window Join
-
Interval Join
下面分别讲解不同Join的使用与特点。
1 Window Join
window join
有固定的语法如下。
stream.join(otherStream)
.where(<KeySelector>)
.equalTo(<KeySelector>)
.window(<WindowAssigner>) // 在这里指定使用什么杨的窗口,Flink内部提供几种
.apply(<JoinFunction>) // JoinFunction用来实现Join的逻辑和返回值类型
NOTE
: 所有类型的window join 类似于SQL种的inner join,只有在同一个窗口中2个流拥有同样的key的元素才能被输出到apply
中的JoinFunction
.
1.1 Tumbling Window Join
- 只有在同一个窗口,且拥有相同的key的Event才会被Window发射到JoinFunction中去计算
1.2 Sliding Window Join
- 只有在同一个窗口,且拥有相同的key的Event才会被Window发射到JoinFunction中去计算
1.3 Session Window Join
- 只有在同一个窗口,且拥有相同的key的Event才会被Window发射到JoinFunction中去计算
2 Interval Join
- Interval Join目前只适用于
event time
语义的keyedStream
之间 - 假如 A intervaljoin B,那么,B中落在[A.timestamp + lower bound ,A.timestamp + upper bound]范围,且与A有同样的key的event与A的组合才会emit到ProcessjoinFunction.