一个由distinct方法引起的bug及思考

最新推荐文章于 2023-10-25 23:09:26 发布

Yuesh1

最新推荐文章于 2023-10-25 23:09:26 发布

阅读量1.2k

点赞数 6

分类专栏：经验文章标签： java bug stream

本文链接：https://blog.csdn.net/deng550/article/details/108111760

版权

经验专栏收录该内容

6 篇文章 0 订阅

订阅专栏

线上产生了一个奇怪的问题，在一个求平均值的地方，却返回了不同的很奇怪的数据，排查问题花费了近大半天的时间，着实让人头大。

背景

在程序中，使用了Java8的stream流对数据进行处理。

定位

呈上犯罪现场(脱敏代码)，供各位大佬嘲讽。

list.stream()
     .map(Entity::getAttributeList)
     .flatMap(Collection::stream).distinct()
     .collect(Collectors.groupingBy(Attribute::getId))
     .forEach((k, v) -> {
          //业务逻辑代码
      });

先上结论，问题产生的原因是distinct()方法，造成参与计算的多条数据丢失，从而导致数据计算错误。

以下是问题的关键证据。

问题的产生原因，是上面脱敏代码中的Attribute对象没有重写hashCode()和equals()方法，导致认为必要的数据被认为是重复数据。

探究distinct（）

万事出现问题，可直接看源码。

stream接口

//java.util.stream
Stream<T> distinct();

关键类
java.util.stream.DistinctOps

static <T> ReferencePipeline<T, T> makeRef(AbstractPipeline<?, T, ?> upstream) {
        return new ReferencePipeline.StatefulOp<T, T>(upstream, StreamShape.REFERENCE,
                                                      StreamOpFlag.IS_DISTINCT | StreamOpFlag.NOT_SIZED) {

            <P_IN> Node<T> reduce(PipelineHelper<T> helper, Spliterator<P_IN> spliterator) {
                // If the stream is SORTED then it should also be ORDERED so the following will also
                // preserve the sort order
                TerminalOp<T, LinkedHashSet<T>> reduceOp
                        = ReduceOps.<T, LinkedHashSet<T>>makeRef(LinkedHashSet::new, LinkedHashSet::add,
                                                                 LinkedHashSet::addAll);
                return Nodes.node(reduceOp.evaluateParallel(helper, spliterator));
            }
            /** 省略其他代码，感兴趣的客观请自行查看 */
        };
    }