Flink全量聚合函数：apply和process这两种实现方法有什么区别？

长处四肢

于 2023-12-26 17:49:31 发布

阅读量222

点赞数 2

文章标签： flink java 大数据

本文链接：https://blog.csdn.net/luke991127/article/details/135227884

版权

Flink全量聚合函数：apply和process这两种实现方法有什么区别？

Flink全量聚合函数：指在窗口触发的时候才会对窗口内的所有数据进行一次计算（等窗口的数据到齐，才开始进行聚合计算，可实现对窗口内的数据进行排序等需求）

实现方法：

apply(windowFunction）
process(processWindowFunction）

apply和process的区别

apply和process都是处理全量计算，但工作中正常用process。

process更加底层，更加强大，有open/close生命周期方法，又可获取RuntimeContext。

ProcessWindowFunction/ProcessAllWindowFunction

全量聚合：窗口需要维护全部原始数据，窗口触发进行全量聚合。

ProcessWindowFunction一次性迭代整个窗口里的所有元素，比较重要的一个对象是Context，可以获取到事件和状态信息，这样我们就可以实现更加灵活的控制，这实际上是process的主要特点吧。该算子会浪费很多性能吧，主要原因是不增量计算，要缓存整个窗口然后再去处理，所以要设计好内存。

牛叉的地方是ProcessWindowFunction可以结合 ReduceFunction， AggregateFunction，或者 FoldFunction来做增量计算(推荐用法)

public class TestProcessWinFunctionOnWindow {
    public static void main(String[] args) throws Exception{
        //获取执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //读取数据
        DataStream<Tuple3<String,String,Long>> input = env.fromElements(ENGLISH);

        //求各班级英语成绩平均分
        DataStream<Double> avgScore = input.keyBy(0)
                .countWindow(2)
                .process(new MyProcessWindowFunction());
        avgScore.print();
        env.execute("TestProcessWinFunctionOnWindow");

    }


    public static class MyProcessWindowFunction extends ProcessWindowFunction<Tuple3<String,String,Long>,Double, Tuple, GlobalWindow> {
        //iterable 输入流中的元素类型集合
        @Override
        public void process(Tuple tuple, Context context, Iterable<Tuple3<String, String, Long>> iterable, Collector<Double> out) throws Exception {
            long sum = 0;
            long count = 0;
            for (Tuple3<String,String,Long> in :iterable){
                sum+=in.f2;
                count++;
            }
            out.collect((double)(sum/count));
        }
    }

    public static final Tuple3[] ENGLISH = new Tuple3[]{
            Tuple3.of("class1","张三",100L),
            Tuple3.of("class1","李四",78L),
            Tuple3.of("class1","王五",99L),
            Tuple3.of("class2","赵六",81L),
            Tuple3.of("class2","小七",59L),
            Tuple3.of("class2","小八",97L),
    };
} 

         Tuple3.of("class2","小八",97L),
    };
}

请注意，使用ProcessWindowFunction诸如 count 之类的简单聚合效率很低。

长处四肢

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Flink全量聚合函数：apply和process这两种实现方法有什么区别？

ProcessWindowFunction一次性迭代整个窗口里的所有元素，比较重要的一个对象是Context，可以获取到事件和状态信息，这样我们就可以实现更加灵活的控制，这实际上是process的主要特点吧。Flink全量聚合函数：指在窗口触发的时候才会对窗口内的所有数据进行一次计算（等窗口的数据到齐，才开始进行聚合计算，可实现对窗口内的数据进行排序等需求）process更加底层，更加强大，有open/close生命周期方法，又可获取RuntimeContext。
复制链接

扫一扫