POI和EasyExcel
根据狂神的视频整理的一份笔记!
POI介绍
Apache POI是基于Office Open XML标准(OOXML)和Microsoft的OLE 2复合文档格式(OLE2)处理各种文件格式的开源项目。 简而言之,您可以使用Java读写MS Excel文件,可以使用Java读写MS Word和MS PowerPoint文件。
apache官网API:http://poi.apache.org/components/index.html
POI模块
- HSSF - 提供读写Microsoft Excel XLS格式(Microsoft Excel 97 (-2003))档案的功能。
- XSSF - 提供读写Microsoft Excel OOXML XLSX格式(Microsoft Excel XML (2007+))档案的功能。
- SXSSF - 提供低内存占用量读写Microsoft Excel OOXML XLSX格式档案的功能。
- HWPF - 提供读写Microsoft Word DOC97格式(Microsoft Word 97 (-2003))档案的功能。
- XWPF - 提供读写Microsoft Word DOC2003格式(WordprocessingML (2007+))档案的功能。
- HSLF/XSLF - 提供读写Microsoft PowerPoint格式档案的功能。
- HDGF/XDGF - 提供读Microsoft Visio格式档案的功能。
- HPBF - 提供读Microsoft Publisher格式档案的功能。
- HSMF - 提供读Microsoft Outlook格式档案的功能。
内存问题:
使用POI进行数据的读取,如果我们有一百万条数据,POI会先加载到内存当中(十分消耗内存,有时还会发生OOM异常,也就是内存溢出异常)
而easyExcel则是,如果我有一百万条数据,它会一条一条的写入
(不能说谁好谁坏,时间和空间的转换!)
EasyExcel
EasyExcel是一个基于Java的简单、省内存的读写Excel的开源项目。在尽可能节约内存的情况下支持读写百M的Excel。 github地址:https://github.com/alibaba/easyexcel
Excel格式分析格式分析
- xls是Microsoft Excel2007前excel的文件存储格式,实现原理是基于微软的ole db是微软com组件的一种实现,本质上也是一个微型数据库,由于微软的东西很多不开源,另外也已经被淘汰,了解它的细节意义不大,底层的编程都是基于微软的com组件去开发的。
- xlsx是Microsoft Excel2007后excel的文件存储格式,实现是基于openXml和zip技术。这种存储简单,安全传输方便,同时处理数据也变的简单。
- csv 我们可以理解为纯文本文件,可以被excel打开。他的格式非常简单,解析起来和解析文本文件一样。
核心原理
写有大量数据的xlsx文件时,POI为我们提供了SXSSFWorkBook类来处理,这个类的处理机制是当内存中的数据条数达到一个极限数量的时候就flush这部分数据,再依次处理余下的数据,这个在大多数场景能够满足需求。
读有大量数据的文件时,使用WorkBook处理就不行了,因为POI对文件是先将文件中的cell读入内存,生成一个树的结构(针对Excel中的每个sheet,使用TreeMap存储sheet中的行)。如果数据量比较大,则同样会产生java.lang.OutOfMemoryError: Java heap space错误。POI官方推荐使用“XSSF and SAX(event API)”方式来解决。
分析清楚POI后要解决OOM有3个关键。
1、文件解压文件读取通过文件形式
2、避免将全部全部数据一次加载到内存
采用sax模式一行一行解析,并将一行的解析结果以观察者的模式通知处理。
3、抛弃不重要的数据
Excel解析时候会包含样式,字体,宽度等数据,但这些数据是我们不关心的,如果将这部分数据抛弃可以大大降低内存使用。Excel中数据如下Style占了相当大的空间
Maven依赖
<dependencies>
<!--xls(03)-->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi</artifactId>
<version>3.9</version>
</dependency>
<!--xlsx(07)-->
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-ooxml</artifactId>
<version>3.9</version>
</dependency>
<!--日期格式化工具-->
<dependency>
<groupId>joda-time</groupId>
<artifactId>joda-time</artifactId>
<version>2.10.1</version>
</dependency>
<!--test-->
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
</dependency>
</dependencies>
03 | 07 版本的写,就是对象不同,方法一样的!
需要注意:2003 版本和 2007 版本存在兼容性的问题!03最多只有 65535 行
写入Excel文件
步骤: 1:创建工作簿对象 2:获得工作表对象 3:遍历工作表对象 获得行对象 4:遍历行对象 获得单元格(列)对象 5:获得数据 6:关闭 注: XSSFWorkbook:工作簿 XSSFSheet:工作表 XSSFRow:行 XSSFCell:单元格
首先需要了解excel的构成:
03版(由于我没有03版的,使用直接上狂神的代码)
@Test
public void testWrite03() throws IOException {
// 创建新的Excel 工作簿
Workbook workbook = new HSSFWorkbook();
// 在Excel工作簿中建一工作表,其名为缺省值 Sheet0
//Sheet sheet = workbook.createSheet();
// 如要新建一名为"会员登录统计"的工作表,其语句为:
Sheet sheet = workbook.createSheet("狂神观众统计表");
// 创建行(row 1)
Row row1 = sheet.createRow(0);
// 创建单元格(col 1-1)
Cell cell11 = row1.createCell(0);
cell11.setCellValue("今日新增关注");
// 创建单元格(col 1-2)
Cell cell12 = row1.createCell(1);
cell12.setCellValue(999);
// 创建行(row 2)
Row row2 = sheet.createRow(1);
// 创建单元格(col 2-1)
Cell cell21 = row2.createCell(0);
cell21.setCellValue("统计时间");
//创建单元格(第三列)
Cell cell22 = row2.createCell(1);
String dateTime = new DateTime().toString("yyyy-MM-dd HH:mm:ss");
cell22.setCellValue(dateTime);
// 新建一输出文件流(注意:要先创建文件夹)
FileOutputStream out = new FileOutputStream(path+"狂神观众统计表03.xls");
// 把相应的Excel 工作簿存盘
workbook.write(out);
// 操作结束,关闭文件
out.close();
System.out.println("文件生成成功");
}
07版本
@Test
public void testExcel() throws Exception {
// 创建工作簿
Workbook workbook = new XSSFWorkbook();
//创建工作表,工作表在工作簿中,所以使用工作簿对象创建
Sheet sheet = workbook.createSheet("blackCat");
// 创建行 excel就是一张二维表,只需要弄清楚坐标就可以了
// 跟二维数组差不多
// 代表第一行
Row row = sheet.createRow(0);
// 创建单元格 单元格中的数字代表第几列(是下标,从0开始)
// 行数和哪一行调用的有关
Cell cell = row.createCell(0);
// 写入
cell.setCellValue("现在的时间是:");
// 括号中的是时间的格式
String s = new DateTime().toString("yyyy-MM-dd HH:mm:ss");
Cell cell1 = row.createCell(1);
cell1.setCellValue(s);
// 创建一个文件输出流(需要先创建文件夹)
FileOutputStream out = new FileOutputStream(PATH + "黑猫demo.xlsx");
// 把对应的excel工作簿存盘
workbook.write(out);
// 关闭流
out.close();
System.out.println("文件生成成功!");
}
注意对象的区别,和文件的后缀!
大文件写 HSSF
- 缺点:最多只能处理65536行,否则就会抛出异常
java.lang.IllegalArgumentException: Invalid row number (65536) outside allowable range (0..65535)
- 优点:过程中写入缓存,不操作磁盘,最后一次性写入磁盘,速度快
@Test
public void testWrite03BigData() throws IOException {
//记录开始时间
long begin = System.currentTimeMillis();
//创建一个SXSSFWorkbook
Workbook workbook = new HSSFWorkbook();
//创建一个sheet
Sheet sheet = workbook.createSheet();
//xls文件最大支持65536行
for (int rowNum = 0; rowNum < 65536; rowNum++) {
//创建一个行
Row row = sheet.createRow(rowNum);
for (int cellNum = 0; cellNum < 10; cellNum++) {//创建单元格
Cell cell = row.createCell(cellNum);
cell.setCellValue(cellNum);
}
}
System.out.println("done");
FileOutputStream out = new FileOutputStream(path+"bigdata03.xls");
workbook.write(out);
// 操作结束,关闭文件
out.close();
//记录结束时间
long end = System.currentTimeMillis();
System.out.println((double)(end - begin)/1000);
}
执行完毕后是1.32秒
大文件写XSSF
-
缺点:写数据时速度非常慢,非常耗内存,也会发生内存溢出,如100万条
-
优点:可以写较大的数据量,如20万条
@Test
public void testExcelBigData() throws Exception {
// 开始时间
long start = System.currentTimeMillis();
// 创建工作簿
XSSFWorkbook xssfSheets = new XSSFWorkbook();
// 创建工作表
XSSFSheet bigData = xssfSheets.createSheet("bigData");
// 存入测试数据
for (int i = 0; i < 100000; i++) {
// 创建行
Row row = bigData.createRow(i);
for (int j = 0; j < 10; j++) {
// 创建单元格
Cell cell = row.createCell(j);
// 写入数据
cell.setCellValue(j);
}
}
//循环完毕后
System.out.println("over!");
// 创建文件输出流
FileOutputStream fileOutputStream = new FileOutputStream(PATH+"bigData07.xlsx");
// 将工作簿写入
xssfSheets.write(fileOutputStream);
// 关闭流
fileOutputStream.close();
// 记录时间
long end = System.currentTimeMillis();
// 打印使用了多长时间
System.out.println((double)(end-start)/1000);
}
使用了 8.809
大文件写SXSSF
- 优点:可以写非常大的数据量,如100万条甚至更多条,写数据速度快,占用更少的内存
注意:
过程中会产生临时文件,需要清理临时文件
默认由100条记录被保存在内存中,如果超过这数量,则最前面的数据被写入临时文件
如果想自定义内存中数据的数量,可以使用new SXSSFWorkbook ( 数量 )
@Test
public void testExcelBigDataS() throws Exception {
// 开始时间
long start = System.currentTimeMillis();
// 创建工作簿
Workbook xssfSheets = new SXSSFWorkbook();
// 创建工作表
Sheet bigData = xssfSheets.createSheet("bigData");
// 存入测试数据
for (int i = 0; i < 100000; i++) {
// 创建行
Row row = bigData.createRow(i);
for (int j = 0; j < 10; j++) {
// 创建单元格
Cell cell = row.createCell(j);
// 写入数据
cell.setCellValue(j);
}
}
//循环完毕后
System.out.println("over!");
// 创建文件输出流
FileOutputStream fileOutputStream = new FileOutputStream(PATH+"bigData07S.xlsx");
// 将工作簿写入
xssfSheets.write(fileOutputStream);
// 关闭流
fileOutputStream.close();
// 清理临时文件
((SXSSFWorkbook)xssfSheets).dispose();
// 记录时间
long end = System.currentTimeMillis();
// 打印使用了多长时间
System.out.println((double)(end-start)/1000);
}
执行完毕用时 1.49
SXSSFWorkbook-来至官方的解释:实现“BigGridDemo”策略的流式XSSFWorkbook版本。这允许写入 非常大的文件而不会耗尽内存,因为任何时候只有可配置的行部分被保存在内存中。
请注意,仍然可能会消耗大量内存,这些内存基于您正在使用的功能,例如合并区域,注释…仍然只存 储在内存中,因此如果广泛使用,可能需要大量内存。
读取Excel文件
03版本
@Test
public void testRead03() throws Exception{
// 获取输入流
InputStream is = new FileInputStream(path+"狂神观众统计表03.xls");
// 创建一个工作簿
Workbook workbook = new HSSFWorkbook(is);
// 得到表 这个是使用下标拿到的
// 还可以使用表名拿到 workbook.getSheet("表名");
Sheet sheet = workbook.getSheetAt(0);
// 读取第一行第一列
Row row = sheet.getRow(0);
Cell cell = row.getCell(0);
// 输出单元内容
// 这个地方获取到的是String类型的,但是excel中有很多不同的类型,需要判断
System.out.println(cell.getStringCellValue());
// 操作结束,关闭文件
is.close();
}
07版本
@Test
public void testExcelRead() throws Exception {
// 获取流
InputStream fileInputStream = new FileInputStream(PATH+"poi.xlsx");
// 创建工作簿
Workbook workbook = new XSSFWorkbook(fileInputStream);
// 得到表
Sheet sheet = workbook.getSheetAt(0);
// 读取想要的行数,如第一行
Row row = sheet.getRow(0);
// 第一列
// 因为我们要取出单元格中的数据,所以需要使用到行和列
Cell cell = row.getCell(0);
// 输出单元内容
System.out.println(cell.getStringCellValue()); // 西月东落天色微曜
// 关闭流
fileInputStream.close();
}
注意获取不同类型的值
读取不同的数据类型
@Test
public void testCellType() throws Exception {
InputStream is = new FileInputStream(path + "/会员消费商品明细表.xls");
Workbook workbook = new HSSFWorkbook(is);
Sheet sheet = workbook.getSheetAt(0);
// 读取标题所有内容
Row rowTitle = sheet.getRow(0);
if (rowTitle != null) {// 行不为空
// 读取cell
int cellCount = rowTitle.getPhysicalNumberOfCells();
for (int cellNum = 0; cellNum < cellCount; cellNum++) {
Cell cell = rowTitle.getCell(cellNum);
if (cell != null) {
int cellType = cell.getCellType();
String cellValue = cell.getStringCellValue();
System.out.print(cellValue + "|");
}
}
System.out.println();
}
// 读取商品列表数据
int rowCount = sheet.getPhysicalNumberOfRows();
for (int rowNum = 1; rowNum < rowCount; rowNum++) {
Row rowData = sheet.getRow(rowNum);
if (rowData != null) {// 行不为空
// 读取cell,读取全部的列
int cellCount = rowTitle.getPhysicalNumberOfCells();
for (int cellNum = 0; cellNum < cellCount; cellNum++) {
System.out.print("【" + (rowNum + 1) + "-" + (cellNum + 1) +"】");
Cell cell = rowData.getCell(cellNum);
if (cell != null) {
int cellType = cell.getCellType();
//判断单元格数据类型
String cellValue = "";
switch (cellType) {
case HSSFCell.CELL_TYPE_STRING://字符串
System.out.print("【STRING】");
cellValue = cell.getStringCellValue();
break;
case HSSFCell.CELL_TYPE_BOOLEAN://布尔
System.out.print("【BOOLEAN】");
cellValue = String.valueOf(cell.getBooleanCellValue());
break;
case HSSFCell.CELL_TYPE_BLANK://空
System.out.print("【BLANK】");
break;
case HSSFCell.CELL_TYPE_NUMERIC:
System.out.print("【NUMERIC】");
//cellValue = String.valueOf(cell.getNumericCellValue());
if (HSSFDateUtil.isCellDateFormatted(cell)) {
//日期
System.out.print("【日期】");
Date date = cell.getDateCellValue();
cellValue = new DateTime(date).toString("yyyy-MM-dd");
} else {
// 不是日期格式,则防止当数字过长时以科学计数法显示
System.out.print("【转换成字符串】");
cell.setCellType(HSSFCell.CELL_TYPE_STRING);
cellValue = cell.toString();
}
break;
case Cell.CELL_TYPE_ERROR:
System.out.print("【数据类型错误】");
break;
}
System.out.println(cellValue);
}
}
}
}
is.close();
}
System.out.println(rowHead);中打印的类容
<xml-fragment r="1" spans="1:4" x14ac:dyDescent="0.25" xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships" xmlns:mc="http://schemas.openxmlformats.org/markup-compatibility/2006" xmlns:x14ac="http://schemas.microsoft.com/office/spreadsheetml/2009/9/ac" xmlns:xr="http://schemas.microsoft.com/office/spreadsheetml/2014/revision" xmlns:xr2="http://schemas.microsoft.com/office/spreadsheetml/2015/revision2" xmlns:xr3="http://schemas.microsoft.com/office/spreadsheetml/2016/revision3" xmlns:main="http://schemas.openxmlformats.org/spreadsheetml/2006/main">
<main:c r="A1" t="s">
<main:v>0</main:v>
</main:c>
<main:c r="B1" t="s">
<main:v>1</main:v>
</main:c>
<main:c r="C1" t="s">
<main:v>2</main:v>
</main:c>
<main:c r="D1" t="s">
<main:v>3</main:v>
</main:c>
</xml-fragment>
枚举类型所代表的数字
/**
* Numeric Cell type (0)
* @see #setCellType(int)
* @see #getCellType()
*/
public final static int CELL_TYPE_NUMERIC = 0;
/**
* String Cell type (1)
* @see #setCellType(int)
* @see #getCellType()
*/
public final static int CELL_TYPE_STRING = 1;
/**
* Formula Cell type (2)
* @see #setCellType(int)
* @see #getCellType()
*/
public final static int CELL_TYPE_FORMULA = 2;
/**
* Blank Cell type (3)
* @see #setCellType(int)
* @see #getCellType()
*/
public final static int CELL_TYPE_BLANK = 3;
/**
* Boolean Cell type (4)
* @see #setCellType(int)
* @see #getCellType()
*/
public final static int CELL_TYPE_BOOLEAN = 4;
/**
* Error Cell type (5)
* @see #setCellType(int)
* @see #getCellType()
*/
public final static int CELL_TYPE_ERROR = 5;
07版
@Test
public void testExcelRead2() throws Exception {
// 获取流
FileInputStream is = new FileInputStream(PATH+"poi.xlsx");
// 创建工作簿
Workbook workbook = new XSSFWorkbook(is);
// 获取工资表
Sheet sheet = workbook.getSheetAt(0);
// 读取标题的内容
// 因为标题是第一行,获取一行的内容
Row rowHead = sheet.getRow(0);
// 先判断有没有值
if (rowHead != null){
// 行不为空,就读取每一列的信息
// 获取一共有多少列(有内容的列)
int cells = rowHead.getPhysicalNumberOfCells();
for (int cellNum = 0; cellNum < cells; cellNum++) {
// 拿到对应单元格中的内容
Cell cell = rowHead.getCell(cellNum);
// 判断拿到的值不为空
if(cell != null){
// 获取列的内容
// int cellType = cell.getCellType();
// 因为我知道第一列是String类型的
String cellValue = cell.getStringCellValue();
System.out.print(cellValue+" | ");
}
}
System.out.println();
}
// 获取内容,上面获取的是标题
// 获取全部的行数,通过表(sheet)获取
int rows = sheet.getPhysicalNumberOfRows();
// 因为第一行是标题,所以从1开始
for (int rowNum = 1; rowNum < rows; rowNum++) {
// 获取行
Row row = sheet.getRow(rowNum);
// 如果行不为空
if(row != null){
// 获取所有的列
int cells = row.getPhysicalNumberOfCells();
for (int colNum = 0; colNum < cells; colNum++) {
// 获取内容
Cell cell = row.getCell(colNum);
if(cell != null){
// 获取内容的数据类型
int cellType = cell.getCellType();
//判断单元格数据类型
String cellValue = "";
// 这里使用的是枚举类型,也可以使用数字
switch (cellType){
case XSSFCell.CELL_TYPE_STRING://字符串
cellValue = cell.getStringCellValue();
break;
case XSSFCell.CELL_TYPE_BOOLEAN://布尔
cellValue = String.valueOf(cell.getBooleanCellValue());
break;
case XSSFCell.CELL_TYPE_BLANK://空
System.out.println("BLANK!");
break;
case XSSFCell.CELL_TYPE_NUMERIC://数字类型
// 数字类型分为:日期和数字
// 先判断是不是日期
if(HSSFDateUtil.isCellDateFormatted(cell)){
// 如果是日期
Date date = cell.getDateCellValue();
cellValue = new DateTime(date).toString("yyyy-MM-dd HH:mm:ss");
}else{
// 如果只是普通的数字
// 为了防止数字过长时以科学计数法显示
// 先将其转换为字符串
cell.setCellType(XSSFCell.CELL_TYPE_STRING);
cellValue = cell.toString();
}
break;
case XSSFCell.CELL_TYPE_ERROR://异常
System.out.println("ERROR!");
break;
}
// 打印
System.out.print(cellValue+" | ");
}
}
System.out.println();
}
}
// 关闭流
is.close();
}
计算公式(了解即可,用的不多)
@Test
public void testFormula() throws Exception{
InputStream is = new FileInputStream(path + "计算公式.xls");
Workbook workbook = new HSSFWorkbook(is);
Sheet sheet = workbook.getSheetAt(0);
// 读取第五行第一列
Row row = sheet.getRow(4);
Cell cell = row.getCell(0);
//公式计算器
FormulaEvaluator formulaEvaluator = new HSSFFormulaEvaluator((HSSFWorkbook) workbook);
// 输出单元内容
int cellType = cell.getCellType();
switch (cellType) {
// 如果类型是公式的话
case Cell.CELL_TYPE_FORMULA://2
//得到公式
String formula = cell.getCellFormula();
System.out.println(formula);
CellValue evaluate = formulaEvaluator.evaluate(cell);
//String cellValue = String.valueOf(evaluate.getNumberValue());
String cellValue = evaluate.formatAsString();
System.out.println(cellValue);
break;
}
}
EasyExcel操作
导入依赖
<dependency>
<groupId>com.alibaba</groupId>
<artifactId>easyexcel</artifactId>
<version>2.2.0-beta2</version>
</dependency>
# 包含有上面的xls(03)和xls(07) 所有使用时将上面的注掉,避免以来冲突
实体类
@Data
public class DemoData {
// @ExcelProperty 对应标题
@ExcelProperty("字符串标题")
private String string;
@ExcelProperty("日期标题")
private Date date;
@ExcelProperty("数字标题")
private Double doubleData;
/**
* 忽略这个字段
*/
@ExcelIgnore
private String ignore;
}
测试数据
private List<DemoData> data() {
List<DemoData> list = new ArrayList<DemoData>();
for (int i = 0; i < 10; i++) {
DemoData data = new DemoData();
data.setString("字符串" + i);
data.setDate(new Date());
data.setDoubleData(0.56);
list.add(data);
}
return list;
}
最简单的写入(选其一就可)
/**
* 最简单的写
* <p>1. 创建excel对应的实体对象 参照{@link DemoData}
* <p>2. 直接写即可
*/
@Test
public void simpleWrite() {
// 写法1
String fileName = TestFileUtil.getPath() + "simpleWrite" + System.currentTimeMillis() + ".xlsx";
// 这里 需要指定写用哪个class去写,然后写到第一个sheet,名字为模板 然后文件流会自动关闭
// 如果这里想使用03 则 传入excelType参数即可
// write(文件名称,格式类)
// 格式类就是想根据那个类生成
// sheet("表名")
// doWrite("数据")
EasyExcel.write(fileName, DemoData.class).sheet("表名").doWrite(data());
// 写法2
fileName = TestFileUtil.getPath() + "simpleWrite" + System.currentTimeMillis() + ".xlsx";
// 这里 需要指定写用哪个class去写
ExcelWriter excelWriter = null;
try {
excelWriter = EasyExcel.write(fileName, DemoData.class).build();
WriteSheet writeSheet = EasyExcel.writerSheet("模板").build();
excelWriter.write(data(), writeSheet);
} finally {
// 千万别忘记finish 会帮忙关闭流
if (excelWriter != null) {
excelWriter.finish();
}
}
}