本文将介绍通过java来提取或读取word文档中文本和图片的方法。这里提取文本和图片包括同时提取文档正文当中以及页眉、页脚中的的文本和图片。
使用工具:freespire.doc for java (免费版)
jar文件导入方法(参考):
方法1:
方法2:可通过maven导入。参考。
测试文档如下:
java代码示例(供参考)
【示例1】提取word中的文本
import com.spire.doc.*;
import java.io.filewriter;
import java.io.ioexception;
public class extracttext {
public static void main(string[] args) throws ioexception{
//加载测试文档
document doc = new document();
doc.loadfromfile("test.docx");
//获取文本保存为string