百万数据的excel文件读取解析

这篇博客介绍了在处理百万数据的Excel文件时,如何避免内存溢出问题。作者首先提到 poi 的 workbook 类在处理大数据时会消耗大量内存,而 streaming-reader 库提供了解决方案。通过使用 StreamingReader.builder(),可以设定行缓存大小并按需读取数据,从而有效地读取和解析Excel文件,避免了内存占用过多的情况。
摘要由CSDN通过智能技术生成

最近业务需要读取百万数据的excel文件,并且解析之后存入redis。

对于excel文件的操作 使用poi和jxl(没用过这个)就可以。其中poi对于导出百万数据提供的workbook是sxss。并不适用百万数据的读取。因为对于百万数据的读取,会将每一行数据都作为对象封装起来存储在内存里。并且该对象还包括了表格样式等信息。因此将非常占用内存。

poi对于大量数据的读取并没有封装的好的类或者方法去操作excel文件,网上很多实现方式是 通过重写poi内部的parse等方法来进行操作。

我尝试用内存隐射的方式操作excle文件。最终没能解析到文件的二进制数据。。。

最后再git上找到的解决办法:https://github.com/monitorjbl/excel-streaming-reader

这个封装的类,功能就是读取excel的时候避免了内存溢出的问题。具体实现类似poi的sxss类。读一部分丢一部分,不会将整个文件实例化对象到内存中。

使用上也很简单。

public void fun(){

File file = new File("data100w.xlsx");
FileInputStream is = new FileInputStream(file);
Workbook workbook = StreamingReader.builder().rowCacheSize(200).bufferSize(1024).open(is);

for (Sheet sheet : workbook) {
            System.out.println(sheet.getSheetName()+"====&#

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值