提取Word里面的内容

最新推荐文章于 2024-02-11 18:18:57 发布

caoxu1987728

最新推荐文章于 2024-02-11 18:18:57 发布

阅读量2.1k

点赞数

分类专栏： J2SE 文章标签： excel string build path 文档 api

本文链接：https://blog.csdn.net/caoxu1987728/article/details/2350838

版权

J2SE 专栏收录该内容

36 篇文章 0 订阅

订阅专栏

Word里面的内容比较简单：

除了支持对Excel文件的读取外，POI还提供对Word的DOC格式文件的读取。但在它的发
行版本中没有发布对Word支持的模块，需要另外下载一个POI的扩展的Jar包。用户可以
到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载，本书采用的是
tm-extractors-0.4_zip。
下载后，把该包加入工程的Build Path中，然后在ch7.poi包下新建一个类WordReader，该
类提供一个静态方法readDoc，读取一个DOC文件并返回文本。函数内容很简单，就是调
用WordExtractor的API来提取DOC的内容到字符串，该函数的代码如下。

public static String readDoc(String doc) throws Exception {
// 创建输入流读取DOC文件
FileInputStream in = new FileInputStream( new File(doc));
WordExtractor extractor = null ;
String text = null ;
// 创建WordExtractor
extractor = new WordExtractor();
// 对DOC文件进行提取
text = extractor.extractText(in);
return text;
}

创建main函数

public static void main(String[] args) {
   try {
     String text = WordReader.readDoc( " c:/test.doc " );
     System.out.println(text);
  } catch (Exception e){
   e.printStackTrace();
  }
}

总结：对Word的提取，主要是利用WordExtractor的对象进行对Doc文档的字符输入流进行的提取，

注意：本程序也要poi的包！！！

最后忘了说：有时这些也是必须的哦

import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFCell;

caoxu1987728

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
提取Word里面的内容

Word里面的内容比较简单：除了支持对Excel文件的读取外，POI还提供对Word的DOC格式文件的读取。但在它的发行版本中没有发布对Word支持的模块，需要另外下载一个POI的扩展的Jar包。用户可以到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载，本书采用的是tm-extractors-0.4
复制链接

扫一扫