相信大家在用flink或spark时都遇到过这样的情况:stream.filter(true/false),流中filter的数据,过滤掉和没过滤掉的数据都想要保存,然后第一次想到的方法大概都是是a=stream.filter(true), b=stream.filter(false),这样不优雅,还会对性能造成影响,flink就提供了这样一个解决方案,就是侧输出,可以在一次计算中将两种数据都保存下来
- 首先定义side-output
OutputTag<String> outputTag = new OutputTag<String>("side-output-reg") {
};
- 注意, 只能在下面函数中才能引入侧输出
ProcessFunction
KeyedProcessFunction
CoProcessFunction
KeyedCoProcessFunction
ProcessWindowFunction
ProcessAllWindowFunction
- 以
ProcessFunction
为例
side-stream = stream.process(new ProcessFunction<String, String>() {
@Override
public void processElement(String value, Context ctx, Collector<String> out) throws Exception {
if (true) {
//正常数据
out.collect(value);
} else {
// emit data to side output,发送到侧输出的数据
ctx.output(outputTag, "sideout-" + value);
}
}
});
- 注意,只有在引入侧输出的算子返回的流才可以获取到侧输出
//上面返回的side-stream, 才能正确获取到侧输出数据,如果后续又进行了其它算子的计算,下面这样就什么也不会输出
side-stream.getSideOutput(outputTag)
有什么问题,欢迎留言,一起研究