java解析word示例(支持docx、doc,wps格式)

本文介绍如何使用Java的Apache POI库解析Word文档,提供docx、doc和wps文件内容提取的代码示例,包括XWPFDocument、WordExtractor和HWPFDocument的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.导入pom.xml
需要先导入解析插件包

  <!-- POI-word文件处理需要 -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-scratchpad</artifactId>
            <version>4.1.2</version>
        </dependency>

2.代码示例:

package com.common.utils;

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;
import org.slf4j.Logger;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

/**
 * @ClassName WordAlansis
 * @Description:  java解析word代码示例
 * @Author: mischen
 * @date: 14:57 2022/11/25
 * @Version 1.0
 */
public class WordAlansis {

    public static void main(String[] args) {
        String path ="C:\\Users\\Administrator\\Desktop\\公司资料\\面试\\1.docx";
       // Map<String, String> getContentWps = getContentWps(path);
       // System.out.println(getContentWps);
        Map<String, String> getContentWps = getContentDocx(new File(path));
        System.out.println(getContentWps);
    }

    /**
     * 获取正文文件内容,docx方法
     *
     * @param file
     * @return
     */
    public static Map<String, String> getContentDocx(File file) {
        Map<String, String> map = new HashMap();
        StringBuffer content = new StringBuffer("");
        String result = "0";  // 0表示获取正常,1表示获取异常
        InputStream is = null;
        Logger logger = null;
        try {
            //根据需求入参也可以改为文件路径,对应的输入流部分改为new File(路径)即可
            is = new FileInputStream(file);
            // 2007版本的word
            XWPFDocument xwpf = new XWPFDocument(is);    // 2007版本,仅支持docx文件处理
            List<XWPFParagraph> paragraphs = xwpf.getParagraphs();
            if (paragraphs != null && paragraphs.size() > 0) {
                for (XWPFParagraph paragraph : paragraphs) {
                    if (!paragraph.getParagraphText().startsWith("    ")) {
                        content.append(paragraph.getParagraphText().trim()).append("\r\n");
                    } else {
                        content.append(paragraph.getParagraphText());
                    }
                }
            }
        } catch (Exception e) {
            logger.error("docx解析正文异常:" + e);
            result = "1"; // 出现异常
        } finally {
            if (is != null) {
                try {
                    is.close();
                } catch (IOException e) {
                    logger.error("" + e);
                }
            }
            map.put("result", result);
            map.put("content", String.valueOf(content));
        }
        return map;
    }

    /**
     * 获取正文文件内容,doc方法
     *
     * @param path
     * @return
     */
    public static Map<String, String> getContentDoc(String path) {
        Map<String, String> map = new HashMap();
        StringBuffer content = new StringBuffer("");
        String result = "0";  // 0表示获取正常,1表示获取异常
        InputStream is = null;
        Logger logger = null;
        try {
            is = new FileInputStream(new File(path));
            // 2003版本的word
            WordExtractor extractor = new WordExtractor(is);  // 2003版本 仅doc格式文件可处理,docx文件不可处理
            String[] paragraphText = extractor.getParagraphText();   // 获取段落,段落缩进无法获取,可以在前添加空格填充
            if (paragraphText != null && paragraphText.length > 0) {
                for (String paragraph : paragraphText) {
                    if (!paragraph.startsWith("    ")) {
                        content.append(paragraph.trim()).append("\r\n");
                    } else {
                        content.append(paragraph);
                    }
                }
            }
        } catch (Exception e) {
            logger.error("doc解析正文异常:" + e);
            result = "1"; // 出现异常
        } finally {
            if (is != null) {
                try {
                    is.close();
                } catch (IOException e) {
                    logger.error("" + e);
                }
            }
            map.put("result", result);
            map.put("content", content.toString());
        }
        return map;
    }

    /**
     * 获取正文文件内容,wps方法
     *
     * @param path
     * @return
     */
    public static Map<String, String> getContentWps(String path) {
        Map<String, String> map = new HashMap();
        StringBuffer content = new StringBuffer("");
        String result = "0";  // 0表示获取正常,1表示获取异常
        InputStream is = null;
        Logger logger = null;
        try {
            is = new FileInputStream(new File(path));
            // wps版本word
            HWPFDocument hwpf = new HWPFDocument(is);
            WordExtractor wordExtractor = new WordExtractor(hwpf);
            // 文档文本内容
            String[] paragraphText1 = wordExtractor.getParagraphText();
            if (paragraphText1 != null && paragraphText1.length > 0) {
                for (String paragraph : paragraphText1) {
                    if (!paragraph.startsWith("    ")) {
                        content.append(paragraph.trim()).append("\r\n");
                    } else {
                        content.append(paragraph);
                    }
                }
            }
        } catch (Exception e) {
            logger.error("wps解析正文异常:" + e);
            result = "1"; // 出现异常
        } finally {
            if (is != null) {
                try {
                    is.close();
                } catch (IOException e) {
                    logger.error("" + e);
                }
            }
            map.put("result", result);
            map.put("content", content.toString());
        }
        return map;
    }
}

### 回答1: 你可以在Maven中央存储库中找到WordExtractor的依赖项。在你的Maven项目中,你可以将以下依赖项添加到你的pom.xml文件中: ``` <dependency> <groupId>org.textmining</groupId> <artifactId>wordextractor</artifactId> <version>1.5</version> </dependency> ``` 或者,你也可以从Maven中央存储库手动下载WordExtractor的JAR文件,并将其导入到你的项目中。 ### 回答2: WordExtractor是一个用于从Word文档中提取内容的Java库。它可以处理并提取.doc和.docx格式的文档,并且具有很好的兼容性和稳定性。 对于使用Maven构建项目的开发人员来说,WordExtractor的Maven配置是非常简单的。首先,需要在项目的pom.xml文件中添加WordExtractor的依赖项。可以通过在dependencies标签中添加以下代码来实现: ```xml <dependency> <groupId>com.devglan.wordexcel</groupId> <artifactId>word-extractor</artifactId> <version>1.0</version> </dependency> ``` 完成这一步后,Maven会自动从中央存储库下载WordExtractor的jar文件,并将其添加到项目的类路径中。 接下来,可以在Java代码中使用WordExtractor库。只需使用合适的导入语句引入WordExtractor类,然后可以实例化一个WordExtractor对象并调用它的方法来提取Word文档的内容。例如: ```java import com.devglan.wordexcel.WordExtractor; public class Main { public static void main(String[] args) { WordExtractor extractor = new WordExtractor(); String text = extractor.extractText("path/to/word/document.docx"); System.out.println(text); } } ``` 在上面的示例中,我们创建了一个WordExtractor对象,并使用`extractText`方法提取了指定Word文档的内容。提取的文本将作为字符串返回,并打印在控制台上。 总的来说,WordExtractor的Maven配置和使用都相对简单。只需在pom.xml中添加依赖项,然后在代码中使用相应的导入语句和方法调用即可。这使得开发人员能够轻松地从Word文档中提取所需的内容。 ### 回答3: WordExtractor是一个用于从Microsoft Word文档中提取文本内容的Java库。它使用了Apache POI库来解析和提取Word文档中的文本信息。 在使用WordExtractor之前,首先需要在项目的pom.xml文件中配置maven依赖。可以在dependencies标签中添加如下依赖项: ```xml <dependencies> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.1.2</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.1.2</version> </dependency> </dependencies> ``` 上述依赖项指定了需要使用的Apache POI库的版本,以及需要的poi和poi-ooxml模块。 完成上述配置后,可以使用maven命令自动下载所需的库文件,并将其添加到项目的classpath中。 接下来,在Java代码中使用WordExtractor可以实现从Word文档中提取文本。首先需要创建一个WordExtractor对象,然后使用该对象的getText()方法来获取文本内容。例如: ```java import org.apache.poi.xwpf.extractor.XWPFWordExtractor; import org.apache.poi.xwpf.usermodel.XWPFDocument; import java.io.FileInputStream; import java.io.IOException; public class WordExtractorExample { public static void main(String[] args) { try { FileInputStream fis = new FileInputStream("path/to/word/document.docx"); XWPFDocument doc = new XWPFDocument(fis); XWPFWordExtractor extractor = new XWPFWordExtractor(doc); String text = extractor.getText(); System.out.println(text); extractor.close(); doc.close(); } catch (IOException e) { e.printStackTrace(); } } } ``` 上述代码中,首先创建一个FileInputStream对象来读取Word文档文件。然后创建XWPFDocument对象,并将FileInputStream对象传递给它的构造函数。接着创建XWPFWordExtractor对象,并将XWPFDocument对象传递给它的构造函数。最后通过getText()方法获取文本内容,并输出到控制台。 以上就是使用maven配置WordExtractor的方法,通过这个库可以方便地从Word文档中提取文本内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值