几百万数据量的 Excel 导出?

之前遇到过,导出20万条数据,每条数据200个字段,会造成内存溢出和卡顿,根据这里的刚发解决问题!

摘抄:几百万数据量的 Excel 导出会内存溢出和卡顿?那是你没用对方法!_l_瓶中精灵的博客-CSDN博客

一. 简介

这里使用阿里开源的EasyExcel框架,发现可以将解析的EXCEL的内存占用控制在KB级别,并且绝对不会内存溢出(内部实现待研究),还有就是速度极快,大概100W条记录,十几个字段,只需要70秒即可完成下载。

EasyExcel的github地址是:https://github.com/alibaba/easyexcel

二. 案例

2.1 POM依赖

<!-- 阿里开源EXCEL -->
<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>easyexcel</artifactId>
    <version>1.1.1</version>
</dependency>

2.2 代码演示

2.2.1.数据量少的(20W以内吧):一个SHEET一次查询导出

/**
 * 针对较少的记录数(20W以内大概)可以调用该方法一次性查出然后写入到EXCEL的一个SHEET中
 * 注意: 一次性查询出来的记录数量不宜过大,不会内存溢出即可。
 *
 * @throws IOException
 */
@Test
public void writeExcelOneSheetOnceWrite() throws IOException {
 
    // 生成EXCEL并指定输出路径
    OutputStream out = new FileOutputStream("E:\\temp\\withoutHead1.xlsx");
    ExcelWriter writer = new ExcelWriter(out, ExcelTypeEnum.XLSX);
 
    // 设置SHEET
    Sheet sheet = new Sheet(1, 0);
    sheet.setSheetName("sheet1");
 
    // 设置标题
    Table table = new Table(1);
    List<List<String>> titles = new ArrayList<List<String>>();
    titles.add(Arrays.asList("用户ID"));
    titles.add(Arrays.asList("名称"));
    titles.add(Arrays.asList("年龄"));
    titles.add(Arrays.asList("生日"));
    table.setHead(titles);
 
    // 查询数据导出即可 比如说一次性总共查询出100条数据
    List<List<String>> userList = new ArrayList<>();
    for (int i = 0; i < 100; i++) {
        userList.add(Arrays.asList("ID_" + i, "小明" + i, String.valueOf(i), new Date().toString()));
    }
 
    writer.write0(userList, sheet, table);
    writer.finish();
}

2.2.2.数据量适中(100W以内):一个SHEET分批查询导出

/**
 * 针对105W以内的记录数可以调用该方法分多批次查出然后写入到EXCEL的一个SHEET中
 * 注意:
 * 每次查询出来的记录数量不宜过大,根据内存大小设置合理的每次查询记录数,不会内存溢出即可。
 * 数据量不能超过一个SHEET存储的最大数据量105W
 *
 * @throws IOException
 */
@Test
public void writeExcelOneSheetMoreWrite() throws IOException {
 
    // 生成EXCEL并指定输出路径
    OutputStream out = new FileOutputStream("E:\\temp\\withoutHead2.xlsx");
    ExcelWriter writer = new ExcelWriter(out, ExcelTypeEnum.XLSX);
 
    // 设置SHEET
    Sheet sheet = new Sheet(1, 0);
    sheet.setSheetName("sheet1");
 
    // 设置标题
    Table table = new Table(1);
    List<List<String>> titles = new ArrayList<List<String>>();
    titles.add(Arrays.asList("用户ID"));
    titles.add(Arrays.asList("名称"));
    titles.add(Arrays.asList("年龄"));
    titles.add(Arrays.asList("生日"));
    table.setHead(titles);
 
    // 模拟分批查询:总记录数50条,每次查询20条,  分三次查询 最后一次查询记录数是10
    Integer totalRowCount = 50;
    Integer pageSize = 20;
    Integer writeCount = totalRowCount % pageSize == 0 ? (totalRowCount / pageSize) : (totalRowCount / pageSize + 1);
 
    // 注: 此处仅仅为了模拟数据,实用环境不需要将最后一次分开,合成一个即可, 参数为:currentPage = i+1;  pageSize = pageSize
    for (int i = 0; i < writeCount; i++) {
 
        // 前两次查询 每次查20条数据
        if (i < writeCount - 1) {
 
            List<List<String>> userList = new ArrayList<>();
            for (int j = 0; j < pageSize; j++) {
                userList.add(Arrays.asList("ID_" + Math.random(), "小明", String.valueOf(Math.random()), new Date().toString()));
            }
            writer.write0(userList, sheet, table);
 
        } else if (i == writeCount - 1) {
 
            // 最后一次查询 查多余的10条记录
            List<List<String>> userList = new ArrayList<>();
            Integer lastWriteRowCount = totalRowCount - (writeCount - 1) * pageSize;
            for (int j = 0; j < lastWriteRowCount; j++) {
                userList.add(Arrays.asList("ID_" + Math.random(), "小明", String.valueOf(Math.random()), new Date().toString()));
            }
            writer.write0(userList, sheet, table);
        }
    }
 
    writer.finish();
}

2.2.3.数据量很大(几百万都行):多个SHEET分批查询导出

/**
 * 针对几百万的记录数可以调用该方法分多批次查出然后写入到EXCEL的多个SHEET中
 * 注意:
 * perSheetRowCount % pageSize要能整除  为了简洁,非整除这块不做处理
 * 每次查询出来的记录数量不宜过大,根据内存大小设置合理的每次查询记录数,不会内存溢出即可。
 *
 * @throws IOException
 */
@Test
public void writeExcelMoreSheetMoreWrite() throws IOException {
 
    // 生成EXCEL并指定输出路径
    OutputStream out = new FileOutputStream("E:\\temp\\withoutHead3.xlsx");
    ExcelWriter writer = new ExcelWriter(out, ExcelTypeEnum.XLSX);
 
    // 设置SHEET名称
    String sheetName = "测试SHEET";
 
    // 设置标题
    Table table = new Table(1);
    List<List<String>> titles = new ArrayList<List<String>>();
    titles.add(Arrays.asList("用户ID"));
    titles.add(Arrays.asList("名称"));
    titles.add(Arrays.asList("年龄"));
    titles.add(Arrays.asList("生日"));
    table.setHead(titles);
 
    // 模拟分批查询:总记录数250条,每个SHEET存100条,每次查询20条  则生成3个SHEET,前俩个SHEET查询次数为5, 最后一个SHEET查询次数为3 最后一次写的记录数是10
    // 注:该版本为了较少数据判断的复杂度,暂时perSheetRowCount要能够整除pageSize, 不去做过多处理  合理分配查询数据量大小不会内存溢出即可。
    Integer totalRowCount = 250;
    Integer perSheetRowCount = 100;
    Integer pageSize = 20;
    Integer sheetCount = totalRowCount % perSheetRowCount == 0 ? (totalRowCount / perSheetRowCount) : (totalRowCount / perSheetRowCount + 1);
    Integer previousSheetWriteCount = perSheetRowCount / pageSize;
    Integer lastSheetWriteCount = totalRowCount % perSheetRowCount == 0 ?
            previousSheetWriteCount :
            (totalRowCount % perSheetRowCount % pageSize == 0 ? totalRowCount % perSheetRowCount / pageSize : (totalRowCount % perSheetRowCount / pageSize + 1));
 
    for (int i = 0; i < sheetCount; i++) {
 
        // 创建SHEET
        Sheet sheet = new Sheet(i, 0);
        sheet.setSheetName(sheetName + i);
 
        if (i < sheetCount - 1) {
 
            // 前2个SHEET, 每个SHEET查5次 每次查20条 每个SHEET写满100行  2个SHEET合计200行  实用环境:参数:currentPage: j+1 + previousSheetWriteCount*i, pageSize: pageSize
            for (int j = 0; j < previousSheetWriteCount; j++) {
                List<List<String>> userList = new ArrayList<>();
                for (int k = 0; k < 20; k++) {
                    userList.add(Arrays.asList("ID_" + Math.random(), "小明", String.valueOf(Math.random()), new Date().toString()));
                }
                writer.write0(userList, sheet, table);
            }
 
        } else if (i == sheetCount - 1) {
 
            // 最后一个SHEET 实用环境不需要将最后一次分开,合成一个即可, 参数为:currentPage = i+1;  pageSize = pageSize
            for (int j = 0; j < lastSheetWriteCount; j++) {
 
                // 前俩次查询 每次查询20条
                if (j < lastSheetWriteCount - 1) {
 
                    List<List<String>> userList = new ArrayList<>();
                    for (int k = 0; k < 20; k++) {
                        userList.add(Arrays.asList("ID_" + Math.random(), "小明", String.valueOf(Math.random()), new Date().toString()));
                    }
                    writer.write0(userList, sheet, table);
 
                } else if (j == lastSheetWriteCount - 1) {
 
                    // 最后一次查询 将剩余的10条查询出来
                    List<List<String>> userList = new ArrayList<>();
                    Integer lastWriteRowCount = totalRowCount - (sheetCount - 1) * perSheetRowCount - (lastSheetWriteCount - 1) * pageSize;
                    for (int k = 0; k < lastWriteRowCount; k++) {
                        userList.add(Arrays.asList("ID_" + Math.random(), "小明1", String.valueOf(Math.random()), new Date().toString()));
                    }
                    writer.write0(userList, sheet, table);
 
                }
            }
        }
    }
 
    writer.finish();
}

三、附一个将对象字段,按顺序转为list的工具

/**
     * excel导出:字段数据映射
     *  为null的返回空串
     * dataList 对象
     * 需要转换的字段集合,顺序也是按照这个
     */
    public static <T> List<List<String>> getObjectData2(List<T> dataList, List<String> fields) {
        if (Objects.isNull(dataList) || Objects.isNull(fields)) {
            return null;
        }
        List<List<String>> result = new ArrayList<>();
        Map<String, String> map;
        for (T entity : dataList) {
            try {
                List<String> data = new ArrayList<>();
                map = BeanUtils.describe(entity);
                String value;
                for (String field : fields) {
                    value = map.get(field);
                    value = StringUtils.isBlank(value) ? "" : value;
                    data.add(value);
                }
                map.clear();
                result.add(data);
            } catch (IllegalAccessException | InvocationTargetException | NoSuchMethodException e) {
                //log.error(e.getMessage(), e);
                e.printStackTrace();
            }
        }
        map = null;
        return result;
    }

三、其他

前后端实现分片实现大文件上传:

https://gitee.com/ninesuntec/large-file-upload

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
如果需要支持百万级别数据量Excel 导出,我们可以使用 SXSSF 和 XSSF 的组合。 XSSF 是 Apache POI 中用于操作 Excel 2007 及以上版本的 API,它使用内存映射文件的方式操作 Excel 文件,因此可以处理大型 Excel 文件。但是,由于 XSSF 会将整个 Excel 文件读入内存,因此对于百万级别的数据量,XSSF 可能会导致内存溢出等问题。 SXSSF 是 XSSF 的一种变体,它使用流式方式操作 Excel 文件,可以在生成 Excel 文件时不将整个文件读入内存,因此可以处理极大规模的数据。SXSSF 的操作方式与 XSSF 相似,只是 SXSSF 没有缓存,需要将数据写入硬盘而不是内存中。 下面是一个示例代码,演示如何使用 SXSSF 和 XSSF 的组合实现百万级别数据量Excel 导出: ```java public void exportExcel(List<User> userList, OutputStream outputStream) throws IOException { // 创建 Excel 工作簿对象 Workbook workbook = new SXSSFWorkbook(); // 创建 Sheet 对象 Sheet sheet = workbook.createSheet("用户列表"); // 创建表头行 Row headerRow = sheet.createRow(0); headerRow.createCell(0).setCellValue("ID"); headerRow.createCell(1).setCellValue("姓名"); headerRow.createCell(2).setCellValue("性别"); headerRow.createCell(3).setCellValue("年龄"); // 填充数据行 for (int i = 0; i < userList.size(); i++) { User user = userList.get(i); Row dataRow = sheet.createRow(i + 1); dataRow.createCell(0).setCellValue(user.getId()); dataRow.createCell(1).setCellValue(user.getName()); dataRow.createCell(2).setCellValue(user.getGender()); dataRow.createCell(3).setCellValue(user.getAge()); // 每写入1000条数据,刷新一次缓存 if (i % 1000 == 0) { ((SXSSFSheet) sheet).flushRows(); } } // 将工作簿写入输出流 workbook.write(outputStream); // 关闭工作簿 workbook.close(); } ``` 以上示例代码中,我们使用 `SXSSFWorkbook` 创建了一个 SXSSF 工作簿对象,并在填充数据时,每写入 1000 条数据时,刷新一次缓存。这样可以避免将整个 Excel 文件读入内存而导致内存溢出等问题。 调用示例代码: ```java List<User> userList = new ArrayList<>(); // 添加百万级别的用户数据 // ... OutputStream outputStream = new FileOutputStream("用户列表.xlsx"); exportExcel(userList, outputStream); outputStream.close(); ``` 以上示例代码中,我们添加了百万级别的用户数据,并将其导出到 `用户列表.xlsx` 文件中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值