flink多流结合的方式
1. join:
可以连接两个不同类型的数据流;将两个流相同key的数据分配到同一个窗口的篮子中;窗口结束时,两个篮子的数据会做笛卡尔积计算,形成一个pair,然后对pair数据进行joinFunction的操作;因为window的数据都是在内存中,所以,当某个key对应的数据很大的时候可能造成OOM。
// Join 操作侧重于对数据对的处理
val joined: JoinedStreams[(String, Int), (String, String)] = stream1.join(stream3)
val joinResult: DataStream[(String, String)] = joined
.where(_._1)
.equalTo(_._1)
.window(TumblingProcessingTimeWindows.of(Time.seconds(1)))
.apply(new JoinFunction[(String, Int), (String, String), (String, String)] {
override def join(in1: (String, Int), in2: (String, String)): (String, String) =???
})
2. CoGroup
也是可以连接两个不同类型的数据源,但是是将两个流相同key的数据分到同一个分区(不能匹配上的数据也放到另一个分区);然后对分区内的数据分组做CoGroupFunction做处理。
// CoGroup 侧重于对数据组的处理
private val group1: CoGroupedStreams[(String, Int), (String, Int)] = stream1.coGroup(stream2)
group1.where(_._1)
.equalTo(_._1)
.window(TumblingProcessingTimeWindows.of(Time.seconds(1)))
.apply(new CoGroupFunction[(String, Int), (String, Int), (String, Int)] {
override def coGroup(iterable: lang.Iterable[(String, Int)],
iterable1: lang.Iterable[(String, Int)],
collector: Collector[(String, Int)]): Unit = ???
})
3. union
可以联合多个流,但是数据类型必须一致;不会对数据去重
val stream1: DataStream[(String, Int)] = env.fromCollection(seq1)
val stream2: DataStream[(String, Int)] = env.fromCollection(seq2)
val stream3: DataStream[(String, Int)] = env.fromCollection(seq1)
private val unionedStream: DataStream[(String, Int)] = stream1.union(stream2,stream3)
unionedStream.print()
4. Connect(broadcast state):
Broadcast State可用于以特定方式组合和联合处理两个事件流。第一个流的事件被广播到一个算子的所有并行实例,该算子将它们保存为状态。另一个流的事件不广播,而是发送给同一个算子的单个实例,并与广播流的事件一起处理。