最近业务需要读取百万数据的excel文件,并且解析之后存入redis。
对于excel文件的操作 使用poi和jxl(没用过这个)就可以。其中poi对于导出百万数据提供的workbook是sxss。并不适用百万数据的读取。因为对于百万数据的读取,会将每一行数据都作为对象封装起来存储在内存里。并且该对象还包括了表格样式等信息。因此将非常占用内存。
poi对于大量数据的读取并没有封装的好的类或者方法去操作excel文件,网上很多实现方式是 通过重写poi内部的parse等方法来进行操作。
我尝试用内存隐射的方式操作excle文件。最终没能解析到文件的二进制数据。。。
最后再git上找到的解决办法:https://github.com/monitorjbl/excel-streaming-reader
这个封装的类,功能就是读取excel的时候避免了内存溢出的问题。具体实现类似poi的sxss类。读一部分丢一部分,不会将整个文件实例化对象到内存中。
使用上也很简单。
public void fun(){
File file = new File("data100w.xlsx");
FileInputStream is = new FileInputStream(file);
Workbook workbook = StreamingReader.builder().rowCacheSize(200).bufferSize(1024).open(is);
for (Sheet sheet : workbook) {
System.out.println(sheet.getSheetName()+"====&#