真是悲剧啊,一个破内部使用系统20多个人使用的后台管理系统有个excel文件上传功能,使用poi3.6版本来解析excel,出现的case是20多个人同时在上传,平均每个人上传的excel有1000多行,大小也就是不到100k吧,由于每个excel后端处理服务时间较长,导致同时需要处理100k*20的excel的行数,本来也就几M的数据量,可是poi解析居然要用掉的内存是这个量的几百倍,不可思议,
使用代码如下:
- XSSFWorkbook wb = new XSSFWorkbook(inputStream);
- XSSFSheet sheet = wb.getSheetAt(0);
- Iterator<Row> iter = sheet.iterator();
- boolean isfirstline = true;
- while (iter.hasNext()) {
- Row row = iter.next();
- if (isfirstline) { // 忽略上传文件第一行的标题栏
- isfirstline = false;
- continue;
- }
- //解析excel,每行有11列,然后对每列解析出来之后调用后端服务把数据保存到数据库中,
- }
- }
内存当时监控,重启一次马上又挂了,
在本地测试了下:
用4.5M多的14多w条记录的excel上传后,然后调试dump jvm heap信息,可怕的poi解析过程使用的两个类的内存占用量惊人的大
网上查了下,大概有几种解决方法:
1. 这个不知道哪个版本才有,3.6是没有的
官方DEMO中有个
Workbook wb = new SXSSFWorkbook(1000);
// keep 1000 rows in memory,
// exceeding rows will be
// flushed to disk
内存里一次只留 多少行
2.尽量使用csv或者txt格式的文件;
3.如果确实必须使用excel,以前有人在传统软件里面是用.net的com组件去调用office的API,这种性能应该是最优的,然后在.net里面提供服务异步解析excel文件;
4.最好能把用户上传的excel先保存起来,然后用一个异步线程一个一个处理excel,这样就不会同时处理好几个excel的量导致内存暴涨,然后excel最好分批上传;