java解析生成Excel比较常用的框架有POI,JXL,但是他们都有一个严重的问题就是耗内存,POI有一套SAX模式的API可以一定程度上解决内存溢出的问题,但是它的Excel存储都是在内存中完成的,内存消耗大。EasyExcel重写了对Excel的解析,能够让原本一个3M的Excel原本需100M左右内存降低到几M,并且不存在内存溢出。
最近做的一个项目中使用了EasyExcel实现文件导入导出功能,发现在读取大文件数据的时候出现请求超时和OOM问题。然后查询官网发现使用分块读取,每次设置读取条目进行读取并增加接口的请求时长能够解决这个问题
例如:
读的对象
@Getter
@Setter
@EqualsAndHashCode
public class DemoData {
private String string;
private Date date;
private Double doubleData;
}
读的监听器
//DemoDataListener不能被spring管理,每次读取excel都要new,然后用到spring构造方法传进去
@slf4j
public class DemoDataListener implements ReadListener<DemoData>{
//每100行数据为一批进行读取
public static final int BATCH_COUNT = 100;
//缓存的数据
private List<DemoData> cachedDataList = ListUtils.newArrayListWithExpectedSize(BATCH_COUNT);
//用于存储的对象
private DemoDAO demoDAO;
//构造方法。每次创建的时候把spring管理的类传进来
public DemoDataListener(DemoDAO demoDAO) {
this.demoDAO = demoDAO;
}
//这个每一条数据解析都进行调用
@Override
public void invoke(DemoData data, AnalysisContext context) {
log.info("解析到一条数据:{}", JSON.toJSONString(data));
cachedDataList.add(data);
// 达到BATCH_COUNT了,需要去存储一次数据库,防止数据几万条数据在内存,容易OOM
if (cachedDataList.size() >= BATCH_COUNT) {
saveData();
// 存储完成清理 list
cachedDataList = ListUtils.newArrayListWithExpectedSize(BATCH_COUNT);
}
}
//数据解析进行调用
@Override
public void doAfterAllAnalysed(AnalysisContext context){
//保存数据
saveData();
}
//保存到数据库
private void saveData() {
log.info("{}条数据,开始存储数据库!", cachedDataList.size());
demoDAO.save(cachedDataList);
log.info("存储数据库成功!");
}
}