java 设置word刷新,阿里P7分享java读取word文档的神奇操作,简直是个天才

本文介绍了如何使用Spire.DocforJava库解决Java读取Word文档时遇到的问题,包括区分段落和表格、避免表格内容混杂,并演示了如何通过该库实现内容提取并转化为JSON格式,以适应特定业务需求。
摘要由CSDN通过智能技术生成

表格作为一种可视化交流模式及组织整理数据的手段,在各种场合及文档中应用广泛。常见的表格可包含文字、图片等元素,我们操作表格时可以插入图片、写入文字及格式化表格样式等。有时候我们想用java来读写含有图片和表格的word文档,怎么操作呢,下面我们将通过Java编程在Word文档中创建表格并实现格式化操作。

8ccefda4e4e1c9d6b10a29c1dab2c53c.png

业务需求

我们有这样一个需求,需要抽取出Word当中的内容,然后组装成特定的json格式发送给第三方引擎接口,输入协议如下:

c8b435b06570f677bac6a52088c715c8.png

这个输入格式一看就是需要我们分段落和表格读取word中的内容,既然需求已定,那就直接开始动手写代码吧。

基于POI实现

把 “java如何读取word” 拿到百度去搜索,答案基本都是利用POI来实现。当然利用POI确实可以实现按段落和表格提取出内容并组装成上述格式,但是在实践过程中有下面2个问题:

需要分别处理两种格式docx、docPOI使用不同的API来读取docx和doc,所以读取逻辑我们需要编写两次。

POI读取doc的段落时会把表格的内容也读取出来这个问题比较坑,poi有单独的方法读取文档中所有表格,但是在读取doc格式段落文档的时候会把表格内容也读取出来,所以我们需要用如下方法排除掉表格:

0bb3e8cbe42c91fcfae9adebfce27bd8.png

考虑以上两种原因,我们最后并没有采取POI来实现word内容提取功能,而是采用第二种方法,即利用 Spire.Doc for Java 来实现。

Spire.Doc for Java

Spire.Doc for Java 是一款专业的 Java Word 组件,开发人员使用它可以轻松地将 Word 文档创建、读取、编辑、转换和打印等功能集成到自己的 Java 应用程序中。

作为一款完全独立的组件,Spire.Doc for Java 的运行环境无需安装 Microsoft Office。

首先我们修改maven仓库地址

247b4e7e0bb1a1af4aedc9ddc10406b5.png

引入对应的jar包

663f56a4d5cfb2bec7158bbe90f7fea2.png

读取word,这里展示的是测试类

e3104aa8112d5d8f7f9b6f0819d56ff4.png

370a92a3809158ddad83c56f5817b5cd.png

通过上面代码我们就可以按段落和表格读取Word中的内容,而后根据系统业务要求的格式进行封装即可。#编程语言#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值