poi 解析word文档一分钟入门,超简单

最新推荐文章于 2024-06-06 09:00:00 发布

mzjmc123

最新推荐文章于 2024-06-06 09:00:00 发布

阅读量1k

点赞数 2

分类专栏： java 编程语言，系统运维 springboot 文章标签： word java spring boot spring

本文链接：https://blog.csdn.net/mzjmc123/article/details/129046741

版权

java 同时被 3 个专栏收录

8 篇文章 2 订阅

订阅专栏

编程语言，系统运维

6 篇文章 0 订阅

订阅专栏

springboot

5 篇文章 0 订阅

订阅专栏

文章介绍了如何使用最新的ApachePOI库，特别是poi-ooxml和poi模块，进行Word文档(.docx)的解析和转换。通过示例代码展示了如何读取文档内容，包括纯文本和样式信息，并提到了不同段落处理的细节。

摘要由CSDN通过智能技术生成

最近一段时间再研究文件解析和转换，网上找了好多资料用的版本都是比较老的,干脆自己去啃poi了,今天开始分享给大家,先从最近简单的做起,花不多说直接开始,项目基于maven构建

<dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>5.2.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>5.2.2</version>
</dependency>

就这两个就够了比较新的poi简化了好多的操作,不要相信网上说的找一大堆没鸟用

	/**
     * 只针对纯文字
     * 表格 图片 后面会写到
     * @param args
     * @throws IOException
     */
    public static void main(String[] args) throws IOException {
        //加载文件
        File file = new File("中文.docx");
        //将文件转成流
        InputStream inputStream = Files.newInputStream(file.toPath());
        //加载poi
        XWPFDocument xwpfDocument = new XWPFDocument(inputStream);
        //创建poi解析器
        XWPFWordExtractor xwpfWordExtractor = new XWPFWordExtractor(xwpfDocument);
        //从解析器中获取文件信息
        XWPFDocument extractorDocument = xwpfWordExtractor.getDocument();
        //获取文件的总段落数
        List<XWPFParagraph> paragraphs = extractorDocument.getParagraphs();
        /**
         * 下面的就比较有意思了,真实的来讲你理解的段落和系统理解的段落有差距
         * 如果对文档不做处理就是读取那么可以用它来直接读取段落文字:paragraph.getText()
         * 如果对文档有样式 比如加粗 字体颜色等需要替换 那就需要用run.getText()
         * 通过这两个方法你会看到不同的段落效果
         * 文件有换行的时候读出来的全是null
         */
        for (XWPFParagraph paragraph : paragraphs) {
            if (paragraph.isEmpty()){
                continue;
            }
            if (StrUtil.isBlank(paragraph.getText())){
                continue;
            }
            log.info("不带样式段落文字:{}", paragraph.getText());
            //List<XWPFRun> runs = paragraph.getRuns();
            //if (runs.isEmpty()){
            //    continue;
            //}
            //for (XWPFRun run : runs) {
            //    if (StrUtil.isBlank(run.getText(0))){
            //        continue;
            //    }
            //      log.info("带样式的段落文字:{}", run.getText(0));
            //}
        }
        extractorDocument.close();
        xwpfWordExtractor.close();
        xwpfDocument.close();
        inputStream.close();
    }