读取 2003 版本(.doc)的word文件相对来说比较简单,只需要
1. poi-3.5-beta6-20090622.jar
2. poi-scratchpad-3.5-beta6-20090622.jar
两个 jar 包即可,
而2007 版本(.docx)就麻烦多,是要导入的 jar 包比较的多,有如下 7 个之多:
1. openxml4j-bin-beta.jar
2. poi-3.5-beta6-20090622.jar
3. poi-ooxml-3.5-beta6-20090622.jar
4 .dom4j-1.6.1.jar
5. geronimo-stax-api_1.0_spec-1.0.jar
6. ooxml-schemas-1.0.jar
7. xmlbeans-2.3.0.jar
其中 4-7 是 poi-ooxml-3.5-beta6-20090622.jar 所依赖的 jar 包(在 poi-bin-3.5-beta6-20090622.tar.gz 中的 ooxml-lib 目录下可以找到)。
// word 2003: 图片不会被读取
InputStream is = new FileInputStream(new File("F:\\001.doc"));
WordExtractor ex = new Word