提取Word里面的内容

Word里面的内容比较简单:

除了支持对Excel文件的读取外,POI还提供对Word的DOC格式文件的读取。但在它的发
行版本中没有发布对Word支持的模块,需要另外下载一个POI的扩展的Jar包。用户可以
http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载,本书采用的是
tm-extractors-0.4_zip。
下载后,把该包加入工程的Build Path中,然后在ch7.poi包下新建一个类WordReader,该
类提供一个静态方法readDoc,读取一个DOC文件并返回文本。函数内容很简单,就是调
用WordExtractor的API来提取DOC的内容到字符串,该函数的代码如下。

public   static  String readDoc(String doc)  throws  Exception { 
 
//  创建输入流读取DOC文件 
 FileInputStream in  =   new  FileInputStream( new  File(doc)); 
 WordExtractor extractor 
=   null
 String text 
=   null
 
//  创建WordExtractor 
 extractor  =   new  WordExtractor(); 
 
//  对DOC文件进行提取 
 text  =  extractor.extractText(in); 
 
return  text; 

创建main函数

 

public   static   void  main(String[] args) { 
  
try
     String text 
=  WordReader.readDoc( " c:/test.doc " ); 
     System.out.println(text); 
  }
catch (Exception e){ 
   e.printStackTrace(); 
  } 
 } 

总结:对Word的提取,主要是利用WordExtractor的对象进行对Doc文档的字符输入流进行的提取,

注意:本程序也要poi的包!!!

最后忘了说:有时这些也是必须的哦

 

import  org.apache.poi.hssf.usermodel.HSSFWorkbook;
import  org.apache.poi.hssf.usermodel.HSSFSheet;
import  org.apache.poi.hssf.usermodel.HSSFRow;
import  org.apache.poi.hssf.usermodel.HSSFCell;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值