利用JDK8的Stream进行不同多层嵌套GroupBy及其性能对比

wenqizai

已于 2022-09-12 17:44:34 修改

阅读量3.9k

点赞数 4

分类专栏： Java 文章标签： java

于 2022-09-12 17:21:50 首次发布

本文链接：https://blog.csdn.net/kaoya156/article/details/126819789

版权

本文介绍了如何利用JDK8的Stream处理多层嵌套GroupBy的需求，通过背景介绍和测试类展示了不同分组实现方式，包括多字段Group By、多层嵌套Group By和遍历后Group By。通过对测试结果的分析，指出在数据量增大时，特定的分组方式能显著提高效率，并提出后续对源码分析的思考。

摘要由CSDN通过智能技术生成

背景

前段时间，接到一个sku摆放的需求，要求sku划分到指定的位置。因此，需要我们对每一条原始的sku数据按位置进行分组展示（见originSku）。其中位置是多层次划分，大致划分为：区域 -> 货架 -> 分区 -> 具体位置 -> 商品明细（如下图所示）。

在这里插入图片描述

本次需求涉及多层嵌套分组，为了保证执行效率，本次采用方案是按需查询所有的sku，在内存中进行分组处理。对于内存处理分组，我们很自然想到了JDK 8的新特性Stream，利用Stream下的Group By可以很好完成本次功能。

因为涉及的嵌套分组过多，达到4次，当sku数量增多时，这里很快就会出行性能问题，因此不得不考虑分组效率的问题。本次列举了3种分组的实现方式，并通过JMH工具进行性能测试，得到多层嵌套分组的最佳实践。

Stream 多字段 group by
多层嵌套 group by
group by 后遍历再 group by

测试类

@BenchmarkMode(Mode.SingleShotTime)  // 测量调用1次耗时
@Warmup(iterations = 2)         		// 预热2次，避免JIT机制对结果进行干扰
@Threads(2)     // 2个线程，由执行环境cpu数量而定，本次电脑cpu核心数为8
@Fork(2)        //  fork 出两个进程
@OutputTimeUnit(TimeUnit.MILLISECONDS) // 单位 ms
public class MultiGroupByTest {
   

    private static List<OriginSku> originSkuList = getOriginSku();

    public static List<OriginSku> getOriginSku() {
   
        // 数据准备: 10 个区域, 区域下有 20 个货架, 货架下有 30 个分区, 分区下有 30 个位置, 每个位置放 10 sku
        List<OriginSku> originSkuList = new ArrayList<>();
        for (int i = 0; i < 10; i++) {
   
            for (int j = 0; j < 20; j++) {
   
                for (int k = 0; k < 30; k++) {
   
                    for (int l = 0; l < 30; l++) {
   
                        for (int m = 0; m < 10; m++) {
   
                            OriginSku sku = new OriginSku();
                            sku.setAreaNo("AreaNo-" + i);
                            sku.setShelfNo("ShelfNo-" + j);
                            sku.setPartitionNo("Partition-" + k);
                            sku.setLocationNo("LocationNo-" + l);
                            sku.setSkuCode(i + "-SkuCode-" + m);
                            sku.setSkuName(i + "-SkuName-" + m);
                            sku.setSkuQty(new BigDecimal(m));
                            sku.setOrder(m);
                            originSkuList.add(sku);
                        }
                    }
                }
            }
        }
        return originSkuList;
    }

    public static void main(String[] args) throws RunnerException {
   
        Options options = new OptionsBuilder()
                .include(MultiGroupByTest.class.getSimpleName())
                .build();
        new Runner(options).run();
    }
}

Stream 多字段 group by

先多字段group by，之后遍历组装数据。

@Benchmark
public List<AreaVo> buildSkuLocation3() {
   
    Map<String, Map<String, Map<String, Map<String, List<OriginSku>>>>> map = getOriginSku()
            .stream()
            .

最低0.47元/天解锁文章

wenqizai

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
利用JDK8的Stream进行不同多层嵌套GroupBy及其性能对比

本次需求涉及多层嵌套分组，为了保证执行效率，本次采用方案是按需查询所有的sku，在内存中进行分组处理。对于内存处理分组，我们很自然想到了JDK 8的新特性Stream，利用Stream下的Group By可以很好完成本次功能。因为涉及的嵌套分组过多，达到4次，当sku数量增多时，这里很快就会出行性能问题，因此不得不考虑分组效率的问题。本次列举了3种分组的实现方式，并通过JMH工具进行性能测试，得到多层嵌套分组的最佳实践。如果数据量上来之后，层层嵌套group by，并在group by后遍历组装数据。
复制链接

扫一扫

专栏目录