一、常遇问题
使用new HSSFWorkbook(NEW FileInputStream(excelFile))来读取Workbook,对Excel2003以前(包括2003)的版本没有问题,但读取Excel2007时发生如下异常:
org.apache.poi.poifs.filesystem.OfficeXmlFileException: The supplied DATA appears TO be IN the Office 2007+ XML. You are calling the part of POI that deals WITH OLE2 Office Documents. You need TO CALL a different part of POI TO PROCESS this DATA (eg XSSF instead of HSSF)
该错误意思是说,文件中的数据是用Office2007+XML保存的,而现在却调用OLE2 Office文档处理,应该使用POI不同的部分来处理这些数据,比如使用XSSF来代替HSSF。
于是按提示使用XSSF代替HSSF,用new XSSFWorkbook(excelFile)来读取Workbook,对Excel2007没有问题了,可是在读取Excel2003以前(包括2003)的版本时却发生了如下新异常:
org.apache.poi.openxml4j.exceptions.InvalidOperationException: Can't open the specified file: '*.xls'
该错误是说,操作无效,不能打开指定的xls文件。
下载POI的源码后进行单步调试,发现刚开始的时候还是对的,但到ZipFile类后就找不到文件了,到网上查了下,原来是XSSF不能读取Excel2003以前(包括2003)的版本,这样的话,就需要在读取前判断文件是2003前的版本还是2007的版本,然后对应调用HSSF或XSSF来读取。
简而言之:由于HSSFWorkbook只能操作excel2003一下版本,XSSFWorkbook只能操作excel2007以上版本,所以利用Workbook接口创建对应的对象操作excel来处理兼容性
@Test
public void test6() throws Exception{
HSSFWorkbook workbook = new HSSFWorkbook(new FileInputStream( new File("c://123.xls")));
HSSFSheet sheet = workbook.getSheetAt(0);
HSSFRow row =sheet.getRow(0);
HSSFCell cell= row.getCell(0);
System.out.println(cell.toString());
}
@Test
public void test7() throws Exception{
XSSFWorkbook workbook = new XSSFWorkbook(new FileInputStream( new File("c://456.xlsx")));
XSSFSheet sheet = workbook.getSheetAt(0);
XSSFRow row =sheet.getRow(0);
XSSFCell cell= row.getCell(0);
System.out.println(cell.toString());
}
@Test //利用Workbook接口和判断excel版本创建相应版本HSSFWorkbook/XSSFWorkbook对象
public void test8() throws Exception{
String file = "c://456.xlsx";
boolean isExcel2003 = file.toLowerCase().endsWith("xls")?true:false;
Workbook workbook = null;
if(isExcel2003){
workbook = new HSSFWorkbook(new FileInputStream(new File(file)));
}else{
workbook = new XSSFWorkbook(new FileInputStream(new File(file)));
}
Sheet sheet = workbook.getSheetAt(0);
Row row =sheet.getRow(0);
Cell cell= row.getCell(0);
System.out.println(cell.toString());
}
But:对于xls格式的文档,有时会报异常
异常一:
Unable to read entire header; 0 bytes read; expected 512 bytes
解决办法:更新pio的包从3.5—final到3.15
异常二:
org.apache.poi.poifs.filesystem.NotOLE2FileException: Invalid header signature; read 0x28FBC3A7BBC3D322, expected 0xE11AB1A1E011CFD0 - Your file appears not to be a valid OLE2 document
解决办法:xml格式的文件可以用excel打开后另存为新的.xls格式就变成标准的.xls格式,另存为后的文件可以用PIO解析。
So:对于标准的xls 格式的文件可以通过上述 通过后缀的方式 用POI 去处理,对于格式有问题的xls 建议用dom4j来解析
二、常用方法
1、创建 Workbook 对象
Workbook workbook1 = new XSSFWorkbook(inputStream); 2007及以上版本使用
Workbook workbook2 = new HSSFWorkbook(inputStream) 2003及以下版本使用
2、读取Excel 的 Sheet
for(int numSheet = 0; numSheet < workbook1.getNumberOfSheets(); numSheet++) {
Sheet sheet = workbook1 .getSheetAt( i );
}
sheet方法:
getSheetName() 返回此工作表的名称
getFirstRowNum() 获取第一行的行标
getLastRowNum() 获取最后一行(不为空的)行标,比行数小1
getPhysicalNumberOfRows() 获取物理定义的行数,指有实际数据的行数(不是表单中的行数)
getRow(int rownum) 返回第几行,基于0的逻辑行(非物理行)
Tips:
获取有记录的行数(getLastRowNum/ getPhysicalNumberOfRows),Excel 没有格式时返回实际行数,有格式时返回数据紊乱(所以有必要在上传Excel之前清除格式)
3、读取 行 Row
Cell getCell(int j) 返回一个单元格对象
short getFirstCellNum() 是获取第一个不为空的列是第几个
short getLastCellNum() 是获取最后一个不为空的列是第几个(中间有空也算)
int getPhysicalNumberOfCells() 获取不为空的列个数(中间有空不算)
4、读取 单元格 Cell
单元格格式:(括号代表对应数值)
CELL_TYPE_NUMERIC(0) 表示对一个单元的数字数据
CELL_TYPE_STRING (1) 表示对一个单元串(文本)
CELL_TYPE_BLANK (3) 代表空白单元格
CELL_TYPE_BOOLEAN(4) 代表布尔单元(true或false)
CELL_TYPE_ERROR (5) 表示在单元的误差值
CELL_TYPE_FORMULA(2) 表示一个单元格公式的结果
单元格的类型:
setCellType(int cellType) 设置单元格的类型(数字,公式或字符串)。
getCellType( ) 返回单元格的类型,为数字,常与单元格格式一起使用
如:mycell.getCellType ==XSSFCell.CELL_TYPE_STRING 就代表该单元格格式为字符串类型的
单元格的值:
setCellValue(各种类型) 设置单元格的值
读取单元格的内容:(一般情况下做个switch判断,根据单元格的类型使用对应的方法)
String getStringCellValue();
Double getNumericCellValue();
Date getDateCellValue();
Boolean getBooleanCellValue();
byte getErrorCellValue();
单元格的样式:
setCellStyle(CellStyle style) 为单元格设置样式。