flink实战例子 DataStream api Side Outputs 分流

分流 Side Outputs

除了DataStream操作产生的主流外,还可以生成任意数量的附加流 。附加流中的数据类型不必与主流中的数据类型相匹配,不同流端输出的类型也可以不同。当您想要分割数据流时,这个操作可能很有用,通常您必须复制数据流,然后从每个流中过滤出您不想拥有的数据。
上面的话,是官网的介绍,有些拗口,其实更通俗的说法就是,对于源数据流可以通过处理后生成新的复制流, 此操作可以多次进行. 比如你相对源数据做不同的处理,一份处理后存入mysql,一份处理后存入kafka,一份处理后存入hdfs, 这个功能就比较有用了.


import org.apache.flink.api.common.functions.RichMapFunction
import org.apache.flink.api.scala.createTypeInformation
import org.apache.flink.streaming.api.functions.ProcessFunction
import org.apache.flink.streaming.api.scala
import org.apache.flink.streaming.api.scala.{OutputTag, StreamExecutionEnvironment}
import org.apache.flink.util.Collector
object CsvReader {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    val ds: scala.DataStream[String] = env.readTextFile("D:\\flink")

    val outputTag = OutputTag[String]("side-output")
    val mainDataStream = ds.process(new ProcessFunction[String, String] {
        override def processElement(value: String,ctx: ProcessFunction[String, String]#Context,
                                     out: Collector[String]): Unit = {
          // emit data to regular output
          out.collect(value)

          // emit data to side output
          ctx.output(outputTag, "sideout-" + String.valueOf(value))
        }
      })
    val sideOutputStream: scala.DataStream[String] = mainDataStream.getSideOutput(outputTag)
    sideOutputStream.print()//分流后的新流
    mainDataStream.print()  //原流
    env.execute("job-name 01")

//你可以在"D:\\flink" 目录中随意建立一个或者多个csv文件
//分流数据在源流数据基础上,为每一行string数据添加了一个
//"sideout-"前缀


  }

}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我先森

鼓励一个吧,哈哈

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值