记录单线程读取Excel文件慢转多线程的过程

最新推荐文章于 2023-07-24 10:43:00 发布

曾从祥

最新推荐文章于 2023-07-24 10:43:00 发布

阅读量972

点赞数

分类专栏：个人历程文章标签： java excel 多线程

本文链接：https://blog.csdn.net/qq_35608927/article/details/114968856

版权

个人历程专栏收录该内容

2 篇文章 0 订阅

订阅专栏

公司需求：将Excel表格中的数据导入DB，表格中数据比较特殊，可能由30行组成一个人完整的数据，也有可能20行组成完整的数据。

一开始实现方式：单线程读取Excel文件，假如文件有6000行，以1000行为分界点，读取到1000行的时候（判断第1000行的数据是否和第998行的数据为同一人，如果为同一人则1000--，一直到不是同一人为止）起一个线程解析数据。

实现结果：读取1300条左右的数据耗时75秒，慢的过分，于是开始优化之路：

优化思路：多线程读取Excel，计算需要的线程数线程数 = 当前行数 / 1000 向上取整，给线程分派任务，代码如下

         //文件总行数
        int lastRowNum = sheet.getLastRowNum();

        //分界点行数
        int readLine = 1000;

        //线程数 = 当前行数 / 1000 向上取整
        int threadNumber = new BigDecimal(lastRowNum).divide(new BigDecimal(readLine), BigDecimal.ROUND_UP).intValue();
        ExecutorService threadPool = Executors.newFixedThreadPool(threadNumber);
        List<XueJianDTO> xueJianDTOS;
        //起线程读取Excel数据
        for (int i = 0; i < threadNumber; i++) {
            int startLine;
            int endLine;
            //设置开始页和结束页
            if (i + 1 == threadNumber) {
                startLine = i * readLine;
                endLine = lastRowNum;
            } else {
                startLine = i * readLine;
                endLine = (i + 1) * readLine;
            }
            xueJianDTOS = new LinkedList<>();
            ReadXueJianThread xueJianThread = new ReadXueJianThread(sheet, startLine, endLine, xueJianDTOS, ShiroUtils.getUserId());
            Future<List<XueJianDTO>> future = threadPool.submit(xueJianThread);
            futures.add(future);
        }
        List<XueJianDTO> resultXueJian = new LinkedList<>();
        for (Future<List<XueJianDTO>> future : futures) {
            List<XueJianDTO> jianDTOS = future.get();
            resultXueJian.addAll(jianDTOS);
        }
        //对数据进行分组
        Map<String, List<XueJianDTO>> group = resultXueJian.stream().filter(e -> !e.getIdCard().equalsIgnoreCase("身份证号")).collect(Collectors.groupingBy(XueJianDTO::getIdCard));
        ConcurrentHashMap<String, List<XueJianDTO>> concurrentHashMap = new ConcurrentHashMap<>();
        concurrentHashMap.putAll(group);

至此Excel数据读取完毕，并且已对数据进行分组，接下来是分批插入DB，整体思路和上面差不多，计算线程数，代码如下

        //多线程将数据存至mongo  30人为一个线程 正常150人
        //线程数
        int threadCount = new BigDecimal(group.size()).divide(new BigDecimal(30), BigDecimal.ROUND_UP).intValue();
        // 子线程监控
        CountDownLatch threadLatch = new CountDownLatch(threadCount);
        threadPool = Executors.newFixedThreadPool(threadCount);
        int size = group.size();
        Iterator<Map.Entry<String, List<XueJianDTO>>> iterator = group.entrySet().iterator();
        List<XueJianDTO> xueJianDTOList = new LinkedList<>();
        while (iterator.hasNext()) {
            Map.Entry<String, List<XueJianDTO>> next = iterator.next();
            willSaveAmount++;
            for (XueJianDTO xueJianDTO : next.getValue()) {
                xueJianDTOList.add(xueJianDTO);
            }
            if (willSaveAmount == 30) {
                StorageXueJianThread storageXueJianThread = new StorageXueJianThread( threadLatch, xueJianDTOList);
                Future<Integer> future = threadPool.submit(storageXueJianThread);
                futureArrayList.add(future);
                willSaveAmount = 0;
                xueJianDTOList = new LinkedList<>();
                //读取30个人数据，每次读完从原本数量当中减去30，目的是为了最后一组线程的数据
                size -= 30;
            }
            if (willSaveAmount == size) {
                StorageXueJianThread storageXueJianThread = new StorageXueJianThread(threadLatch, xueJianDTOList);
                Future<Integer> future = threadPool.submit(storageXueJianThread);
                futureArrayList.add(future);
            }
        }

        Integer successCount = 0;
        for (Future<Integer> future : futureArrayList) {
            successCount += future.get();
        }
        log.info("导入成功{}条数据", successCount);

至此优化完成，原本75秒的数据现在4-5秒即可完成。

但是读取Excel和将数据存储到DB中还是串行操作，进一步可以优化为并行操作，个人思路：设置一个队列，读取到30个人的数据的时候将该数据放到队列中通知另外线程导入至DB。由于个人能力原因没有完成，但是这个思路应该是可行的，希望看到文章的大佬可以不吝赐教，拜谢。

曾从祥

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
记录单线程读取Excel文件慢转多线程的过程

公司需求：将Excel表格中的数据导入DB，表格中数据比较特殊，可能由30行组成一个人完整的数据，也有可能20行组成完整的数据。一开始实现方式：单线程读取Excel文件，假如文件有6000行，以1000行为分界点，读取到1000行的时候（判断第1000行的数据是否和第998行的数据为同一人，如果为同一人则1000--，一直到不是同一人为止）起一个线程解析数据。实现结果：读取1300条左右的数据耗时75秒，慢的过分，于是开始优化之路：优化思路：多线程读取Excel，计算需要的线程数线程数 = 当
复制链接

扫一扫