flink 学习(三)——Transform聚合转换算子

keyBy

  • 逻辑上将一个流拆分成不相交的分区。相同的key一定会进入到相同的分区中,但是同一个分区中可能会含有不同key的数据。有点类似于groupBy,重新分组的意思
  • 数据类型的转化
    对数据分组主要是为了进行后续的聚合操作,即对同组数据进行聚合分析。keyBy会将一个DataStream转化为一个KeyedStream(KeyedStream继承了DataStream),聚合操作会将KeyedStream转化为DataStream。如果聚合前每个元素数据类型是T,聚合后的数据类型仍为T
    在这里插入图片描述
  • 绝大多数情况,我们要根据事件的某种属性或数据的某个字段进行分组,对一个分组内的数据进行处理。如下图所示,keyBy算子根据元素的形状对数据进行分组,相同形状的元素被分到了一起,可被后续算子统一处理。比如,多支股票数据流处理时,可以根据股票代号进行分组,然后对同一股票代号的数据统计其价格变动。又如,电商用户行为日志把所有用户的行为都记录了下来,如果要分析某一个用户行为,需要先按用户ID进行分组
  • 每个分区含有相同key的元素,在内部以hash & 取模的形式实现(key取hash后,取模后相同的key在同一分区,因此相同key的一定在同一分区,但是同一分区含有不同key的元素)
  • 可以按照数字位置(Tuple)指定key
  • 也可以按照字段名指定key

滚动聚合算子

这些算子可以针对KeyedStream的每一个支流做聚合
sum()
min()
minBy()
max()
maxBy()
示例

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        String filePath = "/home/10313588@zte.intra/Desktop/pycharmProject/Drain/logflash/base/src/main/java/flink/data/test_data";
        DataStream<String> inputStream = env.readTextFile(filePath);
        //1. map
        DataStream<POJO_log> mapStream = inputStream.map(new MapFunction<String, POJO_log>() {
            @Override
            public POJO_log map(String value) throws Exception {
                String[] info = value.split(",");
                return new POJO_log(info[0],info[1],new Integer(info[2]));
            }
        });
        KeyedStream<POJO_log, Tuple> keyedStream = mapStream.keyBy("id");
        DataStream<POJO_log> resultStream = keyedStream.maxBy("num");


        resultStream.print();
        env.execute();

Reduce

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值