Flink入门到实战-阶段五(处理函数)

简介

      之前所介绍的流处理 API ,无论是基本的转换、聚合,还是更为复杂的窗口操作,其实都
是基于 DataStream 进行转换的;所以可以统称为 DataStream API ,这也是 Flink 编程的核心。
而我们知道,为了让代码有更强大的表现力和易用性, Flink 本身提供了多层 API DataStream
API 只是中间的一环

使用

processFunction

它不能注册定时器

public class FlinkApp {
    public static void main(String[] args) throws Exception {
        //得到执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        DataStreamSource<String> socketTextStream = env.socketTextStream("master", 9999);

        //并行度设置为1才能看到效果,因为如果不为1,那么有些分区的水位线就是负无穷
        //由于自己的水位线是分区里面最小的水位线,那么自己的一直都是负无穷
        //就触发不了水位线的上升
        env.setParallelism(1);

        //第一个参数就一个名字,第二个参数用来表示事件时间
        SingleOutputStreamOperator<Tuple2<String, Long>> initData = socketTextStream.map(new MapFunction<String, Tuple2<String, Long>>() {
            @Override
            public Tuple2<String, Long> map(String value) throws Exception {
                String[] s = value.split(" ");
                //假设我们在控制台输入的参数是a 15s,那么我们要15*1000才能得到时间戳的毫秒时间
                return Tuple2.of(s[0], Long.parseLong(s[1]) * 1000L);
            }
        });

        //设置水位线
        SingleOutputStreamOperator<Tuple2<String, Long>> watermarks = initData.assignTimestampsAndWatermarks(
                // 针对乱序流插入水位线,延迟时间设置为 2s
                WatermarkStrategy.<Tuple2<String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(2))
                        .withTimestampAssigner(new SerializableTimestampAssigner<Tuple2<String, Long>>() {
                            @Override
                            public long extractTimestamp(Tuple2<String, Long> element, long recordTimestamp) {
                                //指定事件时间
                                return element.f1;
                            }
                        })
        );

        //定义一个侧输出流的标识
        OutputTag<Tuple2<String, Long>> outputTag = new OutputTag<Tuple2<String, Long>>("outputTag") {
        };


        //在普通的datastream的api搞不定的时候就可以使用它了
        SingleOutputStreamOperator<Tuple2<String, Long>> res = watermarks.process(new ProcessFunction<Tuple2<String, Long>, Tuple2<String, Long>>() {
            @Override
            public void processElement(Tuple2<String, Long> value, Context ctx, Collector<Tuple2<String, Long>> out) throws Exception {
                System.out.println("当前的水位线: " + ctx.timerService().currentWatermark());
                if (value.f0.equals("a")) {
                //如果为a那么就写入到侧输出流
                    ctx.output(outputTag, value);
                } else {
                    out.collect(value);
                }
            }
        });
        res.print("result");

        //得到侧输出流的数据
        DataStream<Tuple2<String, Long>> sideOutput = res.getSideOutput(outputTag);
        sideOutput.print("outputTag");


        env.execute();
    }
}

启动linux的nc

nc -lk 9999
a 1
b 1

 

控制台输出

当前的水位线: -9223372036854775808
outputTag> (a,1000)
当前的水位线: -1001
result> (b,1000)

KeyedProcessFunction

要keyBy以后才能使用

定时器的使用

public class FlinkApp {
    public static void main(String[] args) throws Exception {
        //得到执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        DataStreamSource<String> socketTextStream = env.socketTextStream("master", 9999);

        //并行度设置为1才能看到效果,因为如果不为1,那么有些分区的水位线就是负无穷
        //由于自己的水位线是分区里面最小的水位线,那么自己的一直都是负无穷
        //就触发不了水位线的上升
        env.setParallelism(1);

        //第一个参数就一个名字,第二个参数用来表示事件时间
        SingleOutputStreamOperator<Tuple2<String, Long>> initData = socketTextStream.map(new MapFunction<String, Tuple2<String, Long>>() {
            @Override
            public Tuple2<String, Long> map(String value) throws Exception {
                String[] s = value.split(" ");
                //假设我们在控制台输入的参数是a 15s,那么我们要15*1000才能得到时间戳的毫秒时间
                return Tuple2.of(s[0], Long.parseLong(s[1]) * 1000L);
            }
        });

        //设置水位线
        SingleOutputStreamOperator<Tuple2<String, Long>> watermarks = initData.assignTimestampsAndWatermarks(
                // 针对乱序流插入水位线,延迟时间设置为 0s
                WatermarkStrategy.<Tuple2<String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(0))
                        .withTimestampAssigner(new SerializableTimestampAssigner<Tuple2<String, Long>>() {
                            @Override
                            public long extractTimestamp(Tuple2<String, Long> element, long recordTimestamp) {
                                //指定事件时间
                                return element.f1;
                            }
                        })
        );


        //在普通的datastream的api搞不定的时候就可以使用它了
        //KeyedProcessFunction只有在keyBy才能使用
        watermarks.keyBy(data->data.f0)
                        .process(new KeyedProcessFunction<String, Tuple2<String, Long>,Tuple2<String, Long>>() {
                            @Override
                            public void processElement(Tuple2<String, Long> value, Context ctx, Collector<Tuple2<String, Long>> out) throws Exception {
                                Long start = ctx.timestamp();
                                //注册一个定时器
                                ctx.timerService().registerEventTimeTimer(start+2*1000L);
                                System.out.println("start: "+start+" end: "+(start+2*1000L));
                                out.collect(value);

                                System.out.println("事件时间: "+start+" 水位线为:"+ctx.timerService().currentWatermark());
                            }

                            @Override
                            public void onTimer(long timestamp, KeyedProcessFunction<String, Tuple2<String, Long>, Tuple2<String, Long>>.OnTimerContext ctx, Collector<Tuple2<String, Long>> out) throws Exception {
                                System.out.println("定时器启动了: "+timestamp+" 水位线为:"+ctx.timerService().currentWatermark());
                            }
                        }).print();

        env.execute();
    }
}

启动linux的nc

nc -lk 9999

输入

a 1
a 4

输出

start: 1000 end: 3000
(a,1000)
事件时间: 1000 水位线为:-9223372036854775808
start: 4000 end: 6000
(a,4000)
事件时间: 4000 水位线为:999
定时器启动了: 3000 水位线为:3999

结论

  • 可以看到开始水位线为负无穷,注册的定时器和时间事件的关系是,水位线为本次事件时间的-1毫秒
  • 程序结束的时候水位线为无穷大值,就是为了触发没有触发的程序

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

工作变成艺术

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值