为了对文件内容进行索引,必须先抽取出文件中文本。我们使用Apache POI提供的API来抽取office文件(DOC, DOCX, XLS, XLSX, PPT, PPTX)中的文本。很多人在使用开源API的时候都很纳闷,Javadocs那么大,我要的API在到底在哪个类里边。即使找到了也不明白这么多构造函数该用哪个创建想要的对象。本文给大家讲一下POI中我们该如何创建抽取(DOC, DOCX, XLS, XLSX, PPT, PPTX)的对象。
(1) 使用ExtractorFactory.createExtractor(InputStream) 创建抽取对象,返回的是公共接口对象,因此强制转换
InputStream fis = new FileInputStream(filePath);
WorderExtractor extractor = (WordExtrac
- 下载Apache POI(http://poi.apache.org/download.html#POI-3.10-beta2)
- 把下面5个jar包和两个lib文件夹中的jar导入项目classpath
poi-3.10-beta1-20130628.jar
poi-excelant-3.10-beta1-20130628.jar
poi-ooxml-3.10-beta1-20130628.jar
poi-ooxml-schemas-3.10-beta1-20130628.jar
poi-scratchpad-3.10-beta1-20130628.jar
/lib
/ooxml-lib
DOC
org.apache.poi.hwpf.extractor.WordExtractor
这个类只能处理word 2003文档(.doc)(1) 使用ExtractorFactory.createExtractor(InputStream) 创建抽取对象,返回的是公共接口对象,因此强制转换
InputStream fis = new FileInputStream(filePath);
WorderExtractor extractor = (WordExtrac