Word里面的内容比较简单:
除了支持对Excel文件的读取外,POI还提供对Word的DOC格式文件的读取。但在它的发
行版本中没有发布对Word支持的模块,需要另外下载一个POI的扩展的Jar包。用户可以
到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载,本书采用的是
tm-extractors-0.4_zip。
下载后,把该包加入工程的Build Path中,然后在ch7.poi包下新建一个类WordReader,该
类提供一个静态方法readDoc,读取一个DOC文件并返回文本。函数内容很简单,就是调
用WordExtractor的API来提取DOC的内容到字符串,该函数的代码如下。
public
static
String readDoc(String doc)
throws
Exception {
// 创建输入流读取DOC文件
FileInputStream in = new FileInputStream( new File(doc));
WordExtractor extractor = null ;
String text = null ;
// 创建WordExtractor
extractor = new WordExtractor();
// 对DOC文件进行提取
text = extractor.extractText(in);
return text;
}
// 创建输入流读取DOC文件
FileInputStream in = new FileInputStream( new File(doc));
WordExtractor extractor = null ;
String text = null ;
// 创建WordExtractor
extractor = new WordExtractor();
// 对DOC文件进行提取
text = extractor.extractText(in);
return text;
}
创建main函数
public
static
void
main(String[] args) {
try {
String text = WordReader.readDoc( " c:/test.doc " );
System.out.println(text);
} catch (Exception e){
e.printStackTrace();
}
}
try {
String text = WordReader.readDoc( " c:/test.doc " );
System.out.println(text);
} catch (Exception e){
e.printStackTrace();
}
}
总结:对Word的提取,主要是利用WordExtractor的对象进行对Doc文档的字符输入流进行的提取,
注意:本程序也要poi的包!!!
最后忘了说:有时这些也是必须的哦
import
org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFCell;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFCell;