一 问题引发思考
数据量10万行(excel文件6.8M),使用5个线程各执行2万行,部分线程报错Exception in thread "pool-2-thread-4" java.lang.OutOfMemoryError: Java heap space
;
引发思考,增大堆内存吗? 增加多少呢?如何分析? 处理增加堆大小,有其他解决办法吗?
2万行数据, 6.8/5 = 1.36M; POI解析会占用多大内存? 怎么查看呢?
jps -v
9030 RunFaceSet
-agentlib:jdwp=transport=dt_socket,address=127.0.0.1:33107,suspend=y,server=n -Dvisualvm.id=275019664781530
-javaagent:/home/chenershuai/soft/idea2018/lib/rt/debugger-agent.jar=file:/tmp/capture31.props -Dfile.encoding=UTF-8
通过jdk自带的 jconsole,运行两种模式,观察下,差别还是很大的.
二 POI解析excel的不同方式和区别
POI提供了2中读取Excel的模式,分别是:
- 用户模式:也就是poi下的usermodel有关包,它对用户友好,有统一的接口在ss包下,但是它是把整个文件读取到
内存
中的,对于大量数据很容易内存溢出
,所以只能用来处理相对较小量的数据
; - 事件模式:在poi下的eventusermodel包下,相对来说
实现比较复杂
,但是它处理速度快
,占用内存少
,可以用来处理海量
的Excel数据
。
具体原理以后分析:
三 示例分析
代码如下:
4.1 用户模式代码
TestPoi.java
package com.ule.tools;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.text.DecimalFormat;
import java.util.ArrayList;
import java.util.LinkedHashMap;
import java.util.List;
import java.util.Map;
/**
* 利用POI的用户驱动模型解析excel
*/
public class TestPoi {
public static void main(String[] args) {
List list = getExcelList("/home/chenershuai/桌面/blin_test.xlsx", 0);
while (true) {
int i = 1;
}
}
public static List getExcelList(String filePath, int sheetNum) {
Workbook wb = null;
Sheet sheet = null;
Row row = null;
List<Map<String, String>> list = null;
String cellData = null;
String columns[] = {"id", "group_id", "user_id", "image_url"};
wb = readExcel(filePath);