Flink中reduce算子的使用

在Flink中reduce算子可以帮助我们实现很多计算需求,如最大值、最小值、求和等等,根据实际业务需求编写相关逻辑即可,下面将结合代码看一下reduce算子如何使用.

  • 测试数据

    李淳风,男,风水大师,5000
    李逵,男,健身教练,4500
    袁天罡,男,风水大师,7000
    张三丰,男,武术指导,6500
    孙二娘,女,个体户,10000
    孙悟空,男,动作演员,7000
    司空震,男,电工,8000
    吕布,男,武术指导,12000
    貂蝉,女,法师,65000
    俄洛伊,女,健身教练,5500
    
  • 代码(获取不同性别中工资最高的那个人的信息)

    import org.apache.flink.api.common.functions.MapFunction;
    import org.apache.flink.api.common.functions.ReduceFunction;
    import org.apache.flink.api.java.tuple.Tuple4;
    import org.apache.flink.streaming.api.datastream.DataStreamSource;
    import org.apache.flink.streaming.api.datastream.KeyedStream;
    import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
    import   org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
    
    public class FlinkReduceDemo {
    public static void main(String[] args) throws Exception {
        // 创建流环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 设置并行度,这里是为了结果数据更加直观
        env.setParallelism(1);
        // 读取数据源
        DataStreamSource<String> dataStream = env.readTextFile("data/test/userInfo.txt");
        // 先将数据转成元组
        SingleOutputStreamOperator<Tuple4<String, String, String, Integer>> mapStream = dataStream.map(new MapFunction<String, Tuple4<String, String, String, Integer>>() {
            @Override
            public Tuple4<String, String, String, Integer> map(String value) throws Exception {
                // 先将数据切分
                String[] split = value.split(",");
                // 将切分后数据存如Tuple4(姓名, 性别, 职业, 工资)并返回
                return Tuple4.of(split[0], split[1], split[2], Integer.parseInt(split[3]));
            }
        });
        // 先将数据按照性别进行分组
        KeyedStream<Tuple4<String, String, String, Integer>, String> keyByStream = mapStream.keyBy(tup -> tup.f1);
        // 这里使用reduce算子求出不同性别中工资最高的那个人
        SingleOutputStreamOperator<Tuple4<String, String, String, Integer>> reduceStream = keyByStream.reduce(new ReduceFunction<Tuple4<String, String, String, Integer>>() {
            @Override
            public Tuple4<String, String, String, Integer> reduce(Tuple4<String, String, String, Integer> value1, Tuple4<String, String, String, Integer> value2) throws Exception {
                // 因为上面通过keyBy算子已经分好组了, 所以这里我们可以直接进行比较, 如果后面的人工资大于等于上一个人的工资则将整条数据进行更新替换
                if (value1.f3 == null || value2.f3 >= value1.f3) {
                    return value2;
                } else { // 如果不满足上面的条件则保留当前人员的信息
                    return value1;
                }
            }
        });
        // 打印结果
        reduceStream.print();
        env.execute();
      }
    }
    
  • 结果数据

    1> (李淳风,男,风水大师,5000)
    2> (貂蝉,女,法师,65000)
    1> (李淳风,男,风水大师,5000)
    1> (袁天罡,男,风水大师,7000)
    2> (貂蝉,女,法师,65000)
    1> (袁天罡,男,风水大师,7000)
    2> (貂蝉,女,法师,65000)
    1> (孙悟空,男,动作演员,7000)
    1> (司空震,男,电工,8000)
    1> (吕布,男,武术指导,12000)
    

    通过上面的结果可以看出来完全是按照我们在reduce算子中编写的逻辑得到的结果,当然求取最大值也可以使用maxmaxBy算子,开发中还是要根据实际的业务需求选择使用相关的算子,这个并是不定死不变的,灵活选择.

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache Flink是一个流处理引擎,提供了多个算子用于流式数据处理。以下是Flink常用算子的详细解释: 1. Map算子:将输入流的每个元素映射为一个新元素。 2. Filter算子:根据指定条件过滤输入流的元素,只输出满足条件的元素。 3. FlatMap算子:将输入流的每个元素映射为多个新元素。 4. KeyBy算子:将输入流的元素按照指定的key进行分组,输出分组后的流。 5. Reduce算子:对输入流的元素进行累加操作,输出累加后的结果。 6. Aggregations算子:对输入流的元素进行聚合操作,输出聚合后的结果。 7. Window算子:将输入流的元素按照时间窗口或者计数窗口进行分组,输出分组后的流。 8. Join算子:将两个输入流的元素进行关联操作,输出关联后的结果。 9. Union算子:将多个输入流进行合并操作,输出合并后的结果。 10. CoMap算子:将两个输入流的元素进行关联操作,并将结果映射为新的元素输出。 11. CoFlatMap算子:将两个输入流的元素进行关联操作,并将结果映射为多个新元素输出。 12. Iterate算子:对输入流的元素进行迭代操作,直到满足指定条件后输出结果。 13. Split算子:将输入流的元素按照指定条件进行拆分操作,输出拆分后的结果。 14. Select算子:从拆分后的结果选择指定的流输出。 以上是Flink常用的算子,可以根据具体需求选择适合的算子进行数据处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值