使用POI来处理Excel和Word文件格式(POI的介绍)
Microsoft的Office系列产品拥有大量的用户,Word、Excel也成为办公文件的首选。在Java中,已经有很多对于Word、Excel的开源的解决方案,其中比较出色的是Apache的Jakata项目的POI子项目。该项目的官方网站是http://jakarta.apache.org/poi/。
POI包括一系列的API,它们可以操作基于MicroSoft OLE 2 Compound Document Format的各种格式文件,可以通过这些API在Java中读写Excel、Word等文件。POI是完全的Java Excel和Java Word解决方案。POI子项目包括:POIFS、HSSF、HDF、HPSF。表7-2对它们进行了简要介绍。
表7-2 POI子项目介绍
子项目名 | 说明 |
POIFS(POI File System) | POIFS是POI项目中最早的最基础的一个模块,是Java到OLE 2 Compound Document Format的接口,支持读写功能,所有的其他项目都依赖与该项目。 |
HSSF(Horrible Spreadsheet Format) | HSSF是Java到Microsoft Excel 97(-2002)文件的接口,支持读写功能 |
HWPF(Horrible Word Processing Format) | HWPF是Java到Microsoft Word 97文件的接口,支持读写功能,但目前该模块还处于刚开始开发阶段,只能实现一些简单文件的操作,在后续版本中,会提供更强大的支持 |
HPSF(Horrible Property Set Format) | HPSF 是Java到OLE 2 Compound Document Format文件的属性设置的接口,属性设置通常用来设置文档的属性(标题,作者,最后修改日期等),还可以设置用户定义的属性。HPSF支持读写功能,当前发布版本中直支持读功能。 |
对Excel的处理类
下面通过HSSF提供的接口对Excel文件经行处理。首先需要下载POI的包,可以到apache的官方网站下载,地址为:http://apache.justdn.org/jakarta/poi/,本书采用的是poi-2.5.1-final-20040804.jar,读者可以下载当前的稳定版本。把下载的包按照前面介绍的方式加入Build Path,然后新建一个ch7.poi包,并创建一个ExcelReader类。
ExcelReader类可以读取一个XLS文件,然后将其内容逐行提取出来,写入文本文件。
代码7.6 public class ExcelReader { private BufferedReader reader = null; // 创建文件输入流 private String filetype; // 文件类型 private InputStream is = null; // 文件二进制输入流 private int currSheet; // 当前的Sheet private int currPosition; // 当前位置 private int numOfSheets; // Sheet数量
HSSFWorkbook workbook = null; // HSSFWorkbook private static String EXCEL_LINE_DELIMITER = " ";// 设置Cell之间以空格分割 private static int MAX_EXCEL_COLUMNS = 64; // 设置最大列数 public ExcelReader(String inputfile) throws IOException, Exception { // 构造函数创建一个ExcelReader if (inputfile == null || inputfile.trim().equals("")) { // 判断参数是否为空或没有意义 throw new IOException("no input file specified"); } // 取得文件名的后缀名赋值给filetype this.filetype = inputfile.substring(inputfile.lastIndexOf(".") + 1); currPosition = 0; // 设置开始行为0 currSheet = 0; // 设置当前位置为0 is = new FileInputStream(inputfile); // 创建文件输入流 if (filetype.equalsIgnoreCase("txt")) {// 判断文件格式,如果是txt则直接创建BufferedReader读取 reader = new BufferedReader(new InputStreamReader(is)); } else if (filetype.equalsIgnoreCase("xls")) {// 如果是Excel文件则创建HSSFWorkbook读取 workbook = new HSSFWorkbook(is); numOfSheets = workbook.getNumberOfSheets();// 设置Sheet数 } else { throw new Exception("File Type Not Supported"); } }
public String readLine() throws IOException {// 函数readLine读取文件的一行 if (filetype.equalsIgnoreCase("txt")) { // 如果是txt文件则通过reader读取 String str = reader.readLine(); while (str.trim().equals("")) {// 空行则略去,直接读取下一行 str = reader.readLine(); } return str; } else if (filetype.equalsIgnoreCase("xls")) { // 如果是XLS文件则通过POI提供的API读取文件 HSSFSheet sheet = workbook.getSheetAt(currSheet); // 根据currSheet值获得当前的sheet if (currPosition > sheet.getLastRowNum()) { // 判断当前行是否到当前Sheet的结尾 currPosition = 0; // 当前行位置清零 while (currSheet != numOfSheets - 1) {// 判断是否还有Sheet sheet = workbook.getSheetAt(currSheet + 1); // 得到下一张Sheet if (currPosition == sheet.getLastRowNum()) { // 当前行数是否已经到达文件末尾 currSheet++;// 当前Sheet指向下一张Sheet continue; } else { int row = currPosition; // 获取当前行数 currPosition++; return getLine(sheet, row); // 读取当前行数据 } } return null; } int row = currPosition; // 获取当前行数 currPosition++; return getLine(sheet, row); // 读取当前行数据 } return null; }
private String getLine(HSSFSheet sheet, int row) { // 函数getLine返回Sheet的一行数据
HSSFRow rowline = sheet.getRow(row); // 根据行数取得Sheet的一行 StringBuffer buffer = new StringBuffer();// 创建字符创缓冲区 int filledColumns = rowline.getLastCellNum();// 获取当前行的列数 HSSFCell cell = null; for (int i = 0; i < filledColumns; i++) {// 循环遍历所有列 cell = rowline.getCell((short) i); // 取得当前Cell String cellvalue = null; if (cell != null) { switch (cell.getCellType()) {// 判断当前Cell的Type case HSSFCell.CELL_TYPE_NUMERIC: {// 如果当前Cell的Type为NUMERIC if (HSSFDateUtil.isCellDateFormatted(cell)) {// 判断当前的cell是否为Date Date date = cell.getDateCellValue();// 如果是Date类型则,取得该Cell的Date值 cellvalue = cell.getDateCellValue().toLocaleString();// 把Date转换成本地格式的字符串 } else { // 如果是纯数字 Integer num = new Integer((int) cell // 取得当前Cell的数值 .getNumericCellValue()); cellvalue = String.valueOf(num); } break; } case HSSFCell.CELL_TYPE_STRING: // 如果当前Cell的Type为STRIN cellvalue = cell.getStringCellValue().replaceAll("'", "''"); // 取得当前的Cell字符串 break; default: // 默认的Cell值 cellvalue = " "; } } else { cellvalue = ""; } buffer.append(cellvalue).append(EXCEL_LINE_DELIMITER); // 在每个字段之间插入分割符 } return buffer.toString();// 以字符串返回该行的数据 } public void close() {// close函数执行流的关闭操作 if (is != null) {// 如果is不为空,则关闭InputSteam文件输入流 try { is.close(); } catch (IOException e) { is = null; } } if (reader != null) {// 如果reader不为空则关闭BufferedReader文件输入流 try { reader.close(); } catch (IOException e) { reader = null; } } } } 7.3.2 ExcelReader的运行效果 下面创建一个main函数,用来测试上面的ExcelReader类,代码如下。 代码7.7 public static void main(String[] args) { try{ ExcelReader er=new ExcelReader("c://xp.xls"); String line=er.readLine(); while(line != null){ System.out.println(line); line=er.readLine(); } er.close(); }catch(Exception e){ e.printStackTrace(); } } |
POI中Excel文件Cell的类型 ,
在读取每一个Cell的值的时候,通过getCellType方法获得当前Cell的类型,在Excel中Cell有6种类型:
CellType | 说明 |
CELL_TYPE_BLANK | 空值 |
CELL_TYPE_BOOLEAN | 布尔型 |
CELL_TYPE_ERROR | 错误 |
CELL_TYPE_FORMULA | 公式型 |
CELL_TYPE_STRING | 字符串型 |
CELL_TYPE_NUMERIC | 数值型 |
注意:如果Cell的Type为CELL_TYPE_NUMERIC时,还需要进一步判断该Cell的数据格式,因为它有可能是Date类型,在Excel中的Date类型也是以Double类型的数字存储的。Excel中的Date表示当前时间与1900年1月1日相隔的天数,所以需要调用HSSFDateUtil的isCellDateFormatted方法,判断该Cell的数据格式是否是Excel Date类型。如果是,则调用getDateCellValue方法,返回一个Java类型的Date。
Excel的单元格格式
数据有数值、货币、时间、日期、文本等格式。这些数据格式在POI中的HSSFDataFormat类里都有相应的定义。
HSSFDataFormat是HSSF子项目里面定义的一个类。类HSSFDataFormat允许用户新建数据格式类型。HSSFDataFormat类包含静态方法static java.lang.String getBuiltinFormat(short index),它可以根据编号返回内置数据类型。另外static short getBuiltinFormat(java.lang.String format)方法则可以根据数据类型返回其编号,static java.util.List getBuiltinFormats()可以返回整个内置的数据格式列表。
在HSSFDataFormat里一共定义了49种内置的数据格式。
HSSFDataFormat的数据格式
内置数据类型 | 编号 |
"General" | 0 |
"0" | 1 |
"0.00" | 2 |
"#,##0" | 3 |
"#,##0.00" | 4 |
"($#,##0_);($#,##0)" | 5 |
"($#,##0_);[Red]($#,##0)" | 6 |
"($#,##0.00);($#,##0.00)" | 7 |
"($#,##0.00_);[Red]($#,##0.00)" | 8 |
"0%" | 9 |
"0.00%" | 0xa |
"0.00E+00" | 0xb |
"# ?/?" | 0xc |
"# ??/??" | 0xd |
"m/d/yy" | 0xe |
"d-mmm-yy" | 0xf |
"d-mmm" | 0x10 |
"mmm-yy" | 0x11 |
"h:mm AM/PM" | 0x12 |
"h:mm:ss AM/PM" | 0x13 |
"h:mm" | 0x14 |
"h:mm:ss" | 0x15 |
"m/d/yy h:mm" | 0x16 |
保留为过国际化用 | 0x17 - 0x24 |
"(#,##0_);(#,##0)" | 0x25 |
"(#,##0_);[Red](#,##0)" | 0x26 |
"(#,##0.00_);(#,##0.00)" | 0x27 |
"(#,##0.00_);[Red](#,##0.00)" | 0x28 |
"_($*#,##0_);_($*(#,##0);_($* /"-/"_);_(@_)" | 0x29 |
"_(*#,##0.00_);_(*(#,##0.00);_(*/"-/"??_);_(@_)" | 0x2a |
"_($*#,##0.00_);_($*(#,##0.00);_($*/"-/"??_);_(@_)" | 0x2b |
"_($*#,##0.00_);_($*(#,##0.00);_($*/"-/"??_);_(@_)" | 0x2c |
"mm:ss" | 0x2d |
"[h]:mm:ss" | 0x2e |
"mm:ss.0" | 0x2f |
"##0.0E+0" | 0x30 |
"@" - This is text format | 0x31 |
需要注意:
在上面表中,字符串类型所对应的是数据格式为"@"(最后一行),也就是HSSFDataFormat中定义的值为0x31(49)的那行。Date类型的值的范围是0xe-0x11,本例子中的Date格式为""m/d/yy"",在HSSFDataFormat定义的值为0xe(14)。
还有一点就是,所创建的Excel必须是在Microsoft Excel 97到Excel XP的版本上的,如果在Excel 2003中创建文件后,在使用POI进行解析时,可能会出现问题。它会把Date类型当作自定义类型。POI目前只提供对Microsoft Excel XP以下的版本的支持,在以后的版本中,希望会提供对Microsoft Excel 2003更好的支持。
对Word的处理类
除了支持对Excel文件的读取外,POI还提供对Word的DOC格式文件的读取。但在它的发行版本中没有发布对Word支持的模块,需要另外下载一个POI的扩展的Jar包。用户可以到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载,本书采用的是tm-extractors-0.4_zip。
下载后,把该包加入工程的Build Path中,然后在ch7.poi包下新建一个类WordReader,该类提供一个静态方法readDoc,读取一个DOC文件并返回文本。函数内容很简单,就是调用WordExtractor的API来提取DOC的内容到字符串。
代码7.8
public static String readDoc(String doc) throws Exception {
// 创建输入流读取DOC文件
FileInputStream in = new FileInputStream(new File(doc));
WordExtractor extractor = null;
String text = null;
// 创建WordExtractor
extractor = new WordExtractor();
// 对DOC文件进行提取
text = extractor.extractText(in);
return text;
}
在同一个类里创建一个main函数,测试WordReader,该main函数代码如下。
代码7.9
public static void main(String[] args) {
try{
String text = WordReader.readDoc("c:/test.doc");
System.out.println(text);
}catch(Exception e){
e.printStackTrace();
}
}