flink多流结合的方式

flink多流结合的方式

1. join:

可以连接两个不同类型的数据流;将两个流相同key的数据分配到同一个窗口的篮子中;窗口结束时,两个篮子的数据会做笛卡尔积计算,形成一个pair,然后对pair数据进行joinFunction的操作;因为window的数据都是在内存中,所以,当某个key对应的数据很大的时候可能造成OOM。

// Join 操作侧重于对数据对的处理
 
  val joined: JoinedStreams[(String, Int), (String, String)] = stream1.join(stream3)

  val joinResult: DataStream[(String, String)] = joined
    .where(_._1)
    .equalTo(_._1)
    .window(TumblingProcessingTimeWindows.of(Time.seconds(1)))
    .apply(new JoinFunction[(String, Int), (String, String), (String, String)] {
      override def join(in1: (String, Int), in2: (String, String)): (String, String) =???
    })
2. CoGroup

也是可以连接两个不同类型的数据源,但是是将两个流相同key的数据分到同一个分区(不能匹配上的数据也放到另一个分区);然后对分区内的数据分组做CoGroupFunction做处理。

// CoGroup 侧重于对数据组的处理

  private val group1: CoGroupedStreams[(String, Int), (String, Int)] = stream1.coGroup(stream2)

  
   group1.where(_._1)
    .equalTo(_._1)
    .window(TumblingProcessingTimeWindows.of(Time.seconds(1)))
    .apply(new CoGroupFunction[(String, Int), (String, Int), (String, Int)] {
      override def coGroup(iterable: lang.Iterable[(String, Int)],
                           iterable1: lang.Iterable[(String, Int)],
                           collector: Collector[(String, Int)]): Unit = ???
    })
3. union

可以联合多个流,但是数据类型必须一致;不会对数据去重


 val stream1: DataStream[(String, Int)] = env.fromCollection(seq1)
  val stream2: DataStream[(String, Int)] = env.fromCollection(seq2)
  val stream3: DataStream[(String, Int)] = env.fromCollection(seq1)


  private val unionedStream: DataStream[(String, Int)] = stream1.union(stream2,stream3)

  unionedStream.print()
4. Connect(broadcast state):

Broadcast State可用于以特定方式组合和联合处理两个事件流。第一个流的事件被广播到一个算子的所有并行实例,该算子将它们保存为状态。另一个流的事件不广播,而是发送给同一个算子的单个实例,并与广播流的事件一起处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值