分流 Side Outputs
除了DataStream操作产生的主流外,还可以生成任意数量的附加流 。附加流中的数据类型不必与主流中的数据类型相匹配,不同流端输出的类型也可以不同。当您想要分割数据流时,这个操作可能很有用,通常您必须复制数据流,然后从每个流中过滤出您不想拥有的数据。
上面的话,是官网的介绍,有些拗口,其实更通俗的说法就是,对于源数据流可以通过处理后生成新的复制流, 此操作可以多次进行. 比如你相对源数据做不同的处理,一份处理后存入mysql,一份处理后存入kafka,一份处理后存入hdfs, 这个功能就比较有用了.
import org.apache.flink.api.common.functions.RichMapFunction
import org.apache.flink.api.scala.createTypeInformation
import org.apache.flink.streaming.api.functions.ProcessFunction
import org.apache.flink.streaming.api.scala
import org.apache.flink.streaming.api.scala.{OutputTag, StreamExecutionEnvironment}
import org.apache.flink.util.Collector
object CsvReader {
def main(args: Array[String]): Unit = {
val env = StreamExecutionEnvironment.getExecutionEnvironment
val ds: scala.DataStream[String] = env.readTextFile("D:\\flink")
val outputTag = OutputTag[String]("side-output")
val mainDataStream = ds.process(new ProcessFunction[String, String] {
override def processElement(value: String,ctx: ProcessFunction[String, String]#Context,
out: Collector[String]): Unit = {
// emit data to regular output
out.collect(value)
// emit data to side output
ctx.output(outputTag, "sideout-" + String.valueOf(value))
}
})
val sideOutputStream: scala.DataStream[String] = mainDataStream.getSideOutput(outputTag)
sideOutputStream.print()//分流后的新流
mainDataStream.print() //原流
env.execute("job-name 01")
//你可以在"D:\\flink" 目录中随意建立一个或者多个csv文件
//分流数据在源流数据基础上,为每一行string数据添加了一个
//"sideout-"前缀
}
}