有时候我们需要根据记录的类别分别写到不同的文件中去,正如本博客的 《Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)》《Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)》以及《Spark多文件输出(MultipleOutputFormat)》等文章提到的类似。那么如何在Flink Streaming实现类似于《Spark多文件输出(MultipleOutputFormat)》文章中提到的功能呢?很遗憾,Flink内置并不提供相应的API接口来实现这种功能,我们需要自己实现多路文件输出。
在Flink Streaming的DataStream
类中可以发现,DataStream
的print
函数、printToErr
函数以及writeAsText
函数都是封装了一个称为Sink的对象;而这些Sink都是实现了org.apache.flink.streaming.api.functions.sink.RichSinkFunction
或者org.apache.flink.streaming.api.functions.sink.SinkFunction
接口的,所以我们也可以自己实现上述两个接口从而达到文件的多路输出功能。
我们还发现,Flink中有一个org.apache.flink.api.java.io.TextOutputFormat
类,此类通过调用FSDataOutputStream
对象将记录写入到HDFS(当然也可以是其他Hadoop支持的文件系统),所以我们可以封装TextOutputFormat
,然后根据record类别的不一样创建不一样的TextOutputFormat
对象,从而实现文件的多路输出,根据上面的思路我实现了一个名为MultipleTextOutputFormatSinkFunction
类,具体实现如下:
|