poi操作office之word篇

这篇博客介绍了如何使用Apache POI库来读取2003版的.doc文件和2007版的.docx文件。针对2003版,只需要两个jar包,而2007版则需要更多的依赖。内容包括读取文本,但未提及如何处理图片。此外,还展示了如何通过POI解析Word中的表格,但提出了在文本和表格混合时解析的疑问。
摘要由CSDN通过智能技术生成
 

读取 2003 版本(.doc)的word文件相对来说比较简单,只需要

1. poi-3.5-beta6-20090622.jar

2. poi-scratchpad-3.5-beta6-20090622.jar

两个 jar 包即可,

而2007 版本(.docx)就麻烦多,是要导入的 jar 包比较的多,有如下 7 个之多:

 1. openxml4j-bin-beta.jar


 2. poi-3.5-beta6-20090622.jar

 3. poi-ooxml-3.5-beta6-20090622.jar

 4 .dom4j-1.6.1.jar

 5. geronimo-stax-api_1.0_spec-1.0.jar

 6. ooxml-schemas-1.0.jar

 7. xmlbeans-2.3.0.jar


其中 4-7 是 poi-ooxml-3.5-beta6-20090622.jar 所依赖的 jar 包(在 poi-bin-3.5-beta6-20090622.tar.gz 中的 ooxml-lib 目录下可以找到)。

 

   // word 2003: 图片不会被读取

   InputStream is = new FileInputStream(new File("F:\\001.doc"));

   WordExtractor ex = new Word

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值