java进行excel解析主要是用到了poi包。比较老的poi工具包不能解析xlsx文件后缀的excel即2007的工作制表,只能解析xls文件后缀即97-2003的excel工作制表,所以如果要两种都能解析就要集成比较新的poi工具包,如果用比较老的poi包解析xlsx可能会报错。
在进行解析之前要判断excel的后缀,不同后缀用不同的类来解析,这里可以用截取后缀的方法也可以用匹配正则表达式的方法,都是String类的方法。
1.截取后缀。文件的全名从lastIndexOf(".")+1开始截取,得到的就是后缀,使用equels()方法比较就行。
2.匹配正则表达式。使用String类的match(String repx)匹配正则表达式"^.+\\.(?i)(xls)$"和"^.+\\.(?i)(xlsx)$"。
判断完之后就可以进行解析了,解析excel一般都是先定好模板的,所以知道每行有多少列,每列都代表什么数据。使用HSSFWorkbook(XSSFWorkbook)(括号中为后缀为xlsx所使用的类,括号外为解析xls所使用的类,下面与这里相同)接收文件的输入流,下面就是获取sheet了,这里有两个方法一个是HSSFWorkbook(XSSFWorkbook)类的getSheetAt(int index)方法,一个是cloneSheet(int index)方法这两个方法都可以获取的对象类型为HSSFSheet(XSSFSheet)。在这里可以对不同的sheet有不同的操作,可以循环获取sheet,当然如果excel是已知的只在某个sheet有数据,就可以直接指定index。得到sheet之后就是循环读取每行的数据了,一般情况下每行对应数据库中的一行数据,这里可以使用HSSFSheet(XSSFSheet)类的getLastRowNum()方法获取该sheet总共有多少行,HSSFSheet(XSSFSheet)类的getRow(int rowIndex)获取某行类型为HSSFRow(XSSFRow)的数据。接下来通过HSSFRow(XSSFRow)的getCell(int cellnum)获取类型为HSSFCell(XSSFCell)的每个单元格的对象,这个时候获取每个单元的格的值的时候要先判断单元格值的类型,在Cell接口中我们可以看到总共有6种类型,大多数情况下是三种类型即布尔类型(CELL_TYPE_BOOLEAN)、数值类型(CELL_TYPE_NUMERIC)、字符串类型(CELL_TYPE_STRING),少数情况下可能会碰到公式类型(CELL_TYPE_FORMULA)。可以写一个方法获取单元格的值都转换为string类型作返回。
上面基本就把解析的整个步骤说了一下,下面贴出一些代码。假设接收的是用MultipartFile接收文件,该excel文件扩展名为xlsx,在sheet1中。
private static final Logger logger = Logger.getLogger();//打印日志
/*
**读取excel文件
*/
public List<String> readExcel(MultipartFile file) {
List<String> list = new ArrayList();
if (file != null) {
if (file.getOriginalFilename().matches("^.+\\.(?i)(xlsx)$")) {
logger.info("xsl类型的excel");
XSSFWorkbook xssfWorkbook = null;
try {
xssfWorkbook = new XSSFWorkbook(file.getInputStream());
} catch (IOException e) {
logger.error("文件有错误%s", e);
e.printStackTrace();
}
XSSFSheet xssfSheet = xssfWorkbook.cloneSheet(0);
if (xssfSheet == null) {
return null;
}
for (int rowNum = 1; rowNum <= xssfSheet.getLastRowNum(); rowNum++) {
XSSFRow xssfRow = xssfSheet.getRow(1);//一般情况下第一行是列名,所以这里直接从第二行开始读
XSSFCell strCell = xssfRow.getCell(0);
String cellValue = getValue(strCell);
if (StringUtils.isNotEmpty(cellValue)) {
list.add(cellValue);
}
}
return list;
}
}
return list;
}
/*
**返回单元格的值
*/
public String getValue(XSSFCell xssfCell) {
if (xssfCell == null) {
return null;
}
if (xssfCell.getCellType() == XSSFCell.CELL_TYPE_BOOLEAN) {
// 返回布尔类型的值
return String.valueOf(xssfCell.getBooleanCellValue());
} else if (xssfCell.getCellType() == XSSFCell.CELL_TYPE_NUMERIC) {
// 返回数值类型的值
return String.valueOf(xssfCell.getNumericCellValue());
} else {
// 返回字符串类型的值
return String.valueOf(xssfCell.getStringCellValue());
}
}
上面两个方法第一个是用来读取文件的,第二个方法是根据单元格的类型获取单元格的值,都转换为string返回。