java8-09-自定义Collector-groupBy2

声明

这一系列文章旨在帮助大家理解 Collector 的执行流程,至于实现的是否高效、是否优雅、是否合理等暂且不论。

若对 Collector 的各个流程有疑问请移驾此处:http://blog.csdn.net/hylexus/article/details/78941843


年末了,坑爹的本命年也很快结束了,今天写本命年最后一篇博客:

看着这些名门正派的武功心法(Collectos源码),心底往往会泛起一股淡淡的忧伤,一阶江湖散修的无奈V_V。

每每瞄到大派优雅的心法秘诀,内心总会在呐喊:“还有这种操作?”。

不是说看不懂这些大神的实现,只是在没看到人家优雅的实现之前,自己是想不到的V_V。

上次分享的自定义 groupByCollector 实现了分组的功能,但是分组之后的每个分类下都是原来输入的类型。

很多时候,你可能只是需要输入类型的某个属性而已。

比如,分组之后返回的是 Map<Integer, List<User>> ,但是你需要的可能仅仅是user的id,也就是你想要的只是这个: Map<Integer, List<Integer>> ,其中只包含了 user.id

现在就来试试实现这个功能,当然此处的实现还是很死板的。很多东西都是写死的。不支持像jdk原生分组功能那样灵活的实现和组合。

简单实现

  • 此处还是拿上一篇中的例子来说
static class User {
    private Integer id;
    private String name;
    private Integer gender;
    private Integer age;

    User(Integer id, String name, Integer gender, Integer age) {
        this.id = id;
        this.name = name;
        this.gender = gender;
        this.age = age;
    }
    // getter,setter
}

List<User> users = Lists.newArrayList(
        new User(1, "java", 1, 25),
        new User(2, "C", 1, 22),
        new User(3, "scala", 0, 23),
        new User(4, "C++", 0, 11),
        new User(5, "Spark", 1, 25),
        new User(6, "PHP", 0, 45),
        new User(7, "Python", 1, 89),
        new User(8, "JavaScript", 0, 110),
        new User(9, "C#", 1, 33)
);
  • GroupByCollector
/**
 * @param <K> 分组之后的key
 * @param <T> 中间转换过程的元素类型
 * @param <R> 最终的结果类型
 * @author hylexus
 */
static class GroupByCollector3<K, T, R> 
  implements Collector<T, Map<K, List<T>>, Map<K, List<R>>> {

    /**
     * 分类器,指定分组之后的key
     */
    Function<T, K> classifier;
    /**
     * 最后一步的转换函数
     */
    Function<T, R> finisher;

    public GroupByCollector3(Function<T, K> classifier, Function<T, R> finisher) {
        this.classifier = classifier;
        this.finisher = finisher;
    }

    @Override
    public Supplier<Map<K, List<T>>> supplier() {
        return HashMap::new;
    }

    @Override
    public BiConsumer<Map<K, List<T>>, T> accumulator() {
        return (map, e) -> {
            K key = classifier.apply(e);
            List<T> val = Optional.ofNullable(map)
              .map(m -> m.get(key))
              .orElse(Lists.newArrayList());
            val.add(e);
            map.put(key, val);
        };
    }

    @Override
    public BinaryOperator<Map<K, List<T>>> combiner() {
        return (m1, m2) -> {
            m2.forEach((k, v) -> {
                List<T> val = Optional.ofNullable(m1)
                  .map(m -> m.get(k))
                  .orElse(Lists.newArrayList());
                val.addAll(v);
            });
            return m1;
        };
    }

    @Override
    public Function<Map<K, List<T>>, Map<K, List<R>>> finisher() {
        Function<Map<K, List<T>>, Map<K, List<R>>> function = map -> {
            Map<K, List<R>> ret = new HashMap<>();

            map.entrySet().stream().forEach(e -> {
                List<R> v = e.getValue().stream().map(finisher)
                        .collect(Collectors.toList());
                ret.put(e.getKey(), v);
            });
            return ret;
        };
        return function;
    }

    @Override
    public Set<Characteristics> characteristics() {
        return Collections.emptySet();
    }
}

使用自定义Collector

  • 自定义Collector,是获取分组中的userId而非user实例
Map<Integer, List<Integer>> collect = users.stream()
        .collect(new GroupByCollector3<>(User::getGender, User::getId));
collect.forEach((k, v) -> {
    System.out.println(k);
    System.out.println("\t" + v);
});
  • 当然,使用jdk内置的实现起来更优雅
Map<Integer, List<Integer>> collect = users.stream()
        .collect(
                Collectors.groupingBy(
                        User::getGender,
                        Collectors.mapping(User::getId, Collectors.toList())
                )
        );
collect.forEach((k, v) -> {
    System.out.println(k);
    System.out.println("\t" + v);
});
  • 输出效果
0
    [3, 4, 6, 8]
1
    [1, 2, 5, 7, 9]

博客源码

https://github.com/hylexus/blog-src/blob/master/java-core/src/test/java/cn/hylexus/lambda/CollectorTest.java

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Apache Flink支持通过实现ReduceFunction和GroupReduceFunction接口来实现自定义collect_set函数。下面是一个示例Java代码:public class CollectSetReducer implements ReduceFunction<String> { public String reduce(String value1, String value2) throws Exception { Set<String> set = new HashSet<String>(); set.add(value1); set.add(value2); return set.stream().collect(Collectors.joining(",")); } } ### 回答2: Apache Flink是一个流处理和批处理框架,它提供了丰富的内置操作符和函数来处理流式和批处理数据。然而,Apache Flink没有提供内置的collect_set函数,用于将数据流中的元素收集到一个集合中。 要在Apache Flink中自定义实现collect_set函数,您可以使用Flink提供的ReduceFunction和RichFlatMapFunction接口来实现。下面是一个示例的Java代码实现: 首先,我们需要自定义一个ReduceFunction实现,用于将相同key的元素合并到一个集合中: ```java public class CollectSetReduceFunction<T> implements ReduceFunction<T> { @Override public T reduce(T value1, T value2) throws Exception { // 将value2合并到value1中 // 这里假设value1和value2是集合类型 if (value1 instanceof Set) { ((Set) value1).addAll((Set) value2); return value1; } return null; } } ``` 接下来,我们需要自定义一个RichFlatMapFunction实现,用于将每个元素发送到下游操作符,并将其添加到collect_set的集合中: ```java public class CollectSetFunction<T> extends RichFlatMapFunction<T, Set<T>> { private Set<T> resultSet; @Override public void open(Configuration parameters) throws Exception { super.open(parameters); resultSet = new HashSet<>(); } @Override public void flatMap(T value, Collector<Set<T>> out) throws Exception { resultSet.add(value); } @Override public void close() throws Exception { super.close(); out.collect(resultSet); } } ``` 最后,您可以在Flink的数据流中使用自定义collect_set函数,例如: ```java DataStream<Tuple2<String, Integer>> dataStream = ... // 输入数据流 DataStream<Set<Integer>> resultStream = dataStream .groupBy(0) // 按key分组 .reduce(new CollectSetReduceFunction<>()) // 自定义reduce函数 .flatMap(new CollectSetFunction<>()); // 自定义flatMap函数 resultStream.print(); // 输出结果 ``` 以上是一个简单的示例,用于演示如何在Apache Flink中自定义实现collect_set函数。根据您的具体需求,您可能需要根据数据类型和业务逻辑进行一些修改和调整。 ### 回答3: Apache Flink是一个开源的流处理框架,它提供了各种数据操作和处理功能。如果想要实现类似于collect_set的功能,可以使用Flink的自定义函数来完成。 在Java中,我们可以创建一个自定义的聚合函数,来实现collect_set的功能。聚合函数可以让我们对输入的数据进行逐条处理,并输出最终的聚合结果。 以下是一个使用Java代码实现collect_set功能的示例: ```java import org.apache.flink.api.common.functions.AggregateFunction; import java.util.HashSet; import java.util.Set; public class CollectSetFunction<T> implements AggregateFunction<T, Set<T>, Set<T>> { @Override public Set<T> createAccumulator() { return new HashSet<>(); } @Override public Set<T> add(T value, Set<T> accumulator) { accumulator.add(value); return accumulator; } @Override public Set<T> getResult(Set<T> accumulator) { return accumulator; } @Override public Set<T> merge(Set<T> a, Set<T> b) { a.addAll(b); return a; } } ``` 在这个示例中,我们实现了`AggregateFunction`接口,并重写了其中的四个方法来完成collect_set的功能。 `createAccumulator()`方法用于创建一个空的累加器,这里我们使用HashSet来存储结果集。 `add()`方法会在每个输入数据上被调用,它将每个输入元素添加到累加器中。 `getResult()`方法在处理完所有元素后返回最终的结果。 `merge()`方法用于合并多个并行计算的累加器。 通过将这个自定义聚合函数应用到Flink的数据流中,我们就可以实现类似于collect_set的功能,将相同的元素放入一个集合中。 ```java DataStream<Tuple2<String, Integer>> input = ...; // 输入数据流 DataStream<Tuple2<String, Set<Integer>>> result = input .keyBy(0) .aggregate(new CollectSetFunction<>()); ``` 在这个示例中,我们先将输入数据流按照某个键值进行分组(这里使用第一个字段作为键),然后应用我们自定义的聚合函数`CollectSetFunction`。 最终的结果数据流`result`将包含分组后的数据及其对应的集合。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值