flink 学习（三）——Transform聚合转换算子

最新推荐文章于 2023-06-01 14:01:58 发布

raishu

最新推荐文章于 2023-06-01 14:01:58 发布

阅读量1k

点赞数

文章标签： flink big data 大数据

本文链接：https://blog.csdn.net/raishu/article/details/121425231

版权

keyBy

逻辑上将一个流拆分成不相交的分区。相同的key一定会进入到相同的分区中，但是同一个分区中可能会含有不同key的数据。有点类似于groupBy，重新分组的意思
数据类型的转化
对数据分组主要是为了进行后续的聚合操作，即对同组数据进行聚合分析。keyBy会将一个DataStream转化为一个KeyedStream（KeyedStream继承了DataStream），聚合操作会将KeyedStream转化为DataStream。如果聚合前每个元素数据类型是T，聚合后的数据类型仍为T
绝大多数情况，我们要根据事件的某种属性或数据的某个字段进行分组，对一个分组内的数据进行处理。如下图所示，keyBy算子根据元素的形状对数据进行分组，相同形状的元素被分到了一起，可被后续算子统一处理。比如，多支股票数据流处理时，可以根据股票代号进行分组，然后对同一股票代号的数据统计其价格变动。又如，电商用户行为日志把所有用户的行为都记录了下来，如果要分析某一个用户行为，需要先按用户ID进行分组
每个分区含有相同key的元素，在内部以hash & 取模的形式实现（key取hash后，取模后相同的key在同一分区，因此相同key的一定在同一分区，但是同一分区含有不同key的元素）
可以按照数字位置（Tuple）指定key
也可以按照字段名指定key

滚动聚合算子

这些算子可以针对KeyedStream的每一个支流做聚合
sum()
min()
minBy()
max()
maxBy()
示例

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        String filePath = "/home/10313588@zte.intra/Desktop/pycharmProject/Drain/logflash/base/src/main/java/flink/data/test_data";
        DataStream<String> inputStream = env.readTextFile(filePath);
        //1. map
        DataStream<POJO_log> mapStream = inputStream.map(new MapFunction<String, POJO_log>() {
            @Override
            public POJO_log map(String value) throws Exception {
                String[] info = value.split(",");
                return new POJO_log(info[0],info[1],new Integer(info[2]));
            }
        });
        KeyedStream<POJO_log, Tuple> keyedStream = mapStream.keyBy("id");
        DataStream<POJO_log> resultStream = keyedStream.maxBy("num");


        resultStream.print();
        env.execute();

Reduce

raishu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
flink 学习（三）——Transform聚合转换算子

keyBy逻辑上将一个流拆分成不相交的分区。相同的key一定会进入到相同的分区中，但是同一个分区中可能会含有不同key的数据数据类型的转化对数据分组主要是为了进行后续的聚合操作，即对同组数据进行聚合分析。keyBy会将一个DataStream转化为一个KeyedStream（KeyedStream继承了DataStream），聚合操作会将KeyedStream转化为DataStream。如果聚合前每个元素数据类型是T，聚合后的数据类型仍为T绝大多数情况，我们要根据事件的某种属性或数据的某个字段进
复制链接

扫一扫