Java Apache POI 小记(读取Word通过模板创建PPT)

起因

近期身边的一位朋友来寻求帮助,她在日常工作时,总是需要做一些重复的事情,所以想着是否能通过程序实现自动化的操作。
具体需求为,每天会收到一份固定格式的Word文件,然后根据其中的内容,填充到固定的PPT模板中,最终生成图片输出。

过程

确定工具

有了需求后,第一件事自然是在网络上查找是否有符合需要的工具使用,笔者之前用过Apache POI来操作过Excel文件的经历,因此有印象Apache POI是支持Office文件的操作,不局限于Excel文件,于是决定就用它了。(制作后期有看到一些其他的工具框架,比如Spire,但一是因为已经用POI实现了大部分功能,二是因为比如Spire的高级功能是收费的,最终还是用POI一条路走到底了)
Apache POI是用Java编写的免费开源的跨平台的 Java API,Apache POI提供API给Java程式对Microsoft Office(Excel、WORD、PowerPoint、Visio等)格式档案读和写的功能(基于OLE2 Compound documents of MS-Office文件格式 )。POI本身为“Poor Obfuscation Implementation”的首字母缩写。
其中POI主要有以下功能模块:

  • HSSF - 提供读写Microsoft Excel XLS格式档案的功能。
  • XSSF - 提供读写Microsoft Excel OOXML XLSX格式档案的功能。
  • HWPF - 提供读写Microsoft Word DOC97格式档案的功能。
  • XWPF - 提供读写Microsoft Word DOC2003格式档案的功能。
  • HSLF - 提供读写Microsoft PowerPoint格式档案的功能。
  • HDGF - 提供读Microsoft Visio格式档案的功能。
  • HPBF - 提供读Microsoft Publisher格式档案的功能。
  • HSMF - 提供读Microsoft Outlook格式档案的功能。

功能拆分

确定使用的工具之后,便是将需求进行功能性拆分,方便功能的独立实现。

  1. 读取Word文件,包括文字的颜色属性。
  2. 读取PPT模板,通过模板创建新的PPT,并将Word文件中读取的内容填充到新建的PPT文件中。
  3. 将PPT文件转换为图片。

读取Word文件

Apache POI支持对Word文件进行读写操作。笔者使用的3.17的版本,主要是因为开始查找相关范例的时候,网上的demo多数基于这个版本,虽然版本不是最新的,但足够实现所需要的功能。(笔者在功能完成后,有尝试使用最新版的POI,新版的实现与旧版略有不同,会导致已实现的功能报错,因为时间问题就没有深究,因此又退回了3.17的版本)。POI的Maven依赖如下所示:

<dependencies>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>3.17</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>3.17</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml-schemas -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml-schemas</artifactId>
            <version>3.17</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-scratchpad -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-scratchpad</artifactId>
            <version>3.17</version>
        </dependency>

    </dependencies>

引入POI库后,便可以着手进行功能的实现了,下面的示例为读取本地磁盘的Word文件。

 // 读取制定路径下的doc文件,测试时使用的是docx文件
    public static ArrayList<WordStrList> readDoc1(String path) throws IOException {
   

        InputStream is = new FileInputStream(path);
        XWPFDocument doc = new XWPFDocument(is);


        ArrayList<WordStrList> wordLists = new ArrayList
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
非常抱歉,我之前给出的代码有误。在Apache POI库中,获取Word文档表格中空白列的字体大小可以使用`XWPFTableCell`类的`getParagraphs()`方法和`XWPFParagraph`类的`getRuns()`方法来获取段落和运行对象,然后通过运行对象的`getFontSize()`方法获取字体大小。以下是修改后的示例代码: ```java import org.apache.poi.xwpf.usermodel.*; import java.io.FileInputStream; import java.io.IOException; public class WordTableFormatReader { public static void main(String[] args) { try { // 读取Word文档 FileInputStream fileInputStream = new FileInputStream("input.docx"); XWPFDocument document = new XWPFDocument(fileInputStream); fileInputStream.close(); // 获取第一个表格 XWPFTable table = document.getTables().get(0); // 假设文档中只有一个表格 // 获取表格列数 int columnCount = table.getRow(0).getTableCells().size(); // 遍历表格列的格式 for (int columnIndex = 0; columnIndex < columnCount; columnIndex++) { // 获取第一行的单元格 XWPFTableCell cell = table.getRow(0).getCell(columnIndex); // 检查单元格是否为空白列 if (cell.getText().trim().isEmpty()) { // 获取单元格的段落 XWPFParagraph paragraph = cell.getParagraphs().get(0); // 获取段落的运行对象 XWPFRun run = paragraph.getRuns().get(0); // 获取运行对象的字体大小 int fontSize = run.getFontSize(); System.out.println("空白列 " + (columnIndex + 1) + " 的字体大小: " + fontSize); } } System.out.println("空白列格式读取成功!"); } catch (IOException e) { e.printStackTrace(); } } } ``` 在这个示例中,我们首先使用`FileInputStream`来读取名为"input.docx"的Word文档,然后使用`XWPFDocument`类加载文档内容。 接下来,我们使用`document.getTables().get(0)`获取文档中的第一个表格。如果您的文档中有多个表格,请根据实际情况选择要读取格式的表格。 然后,我们使用`table.getRow(0).getTableCells().size()`获取表格的列数。这里假设第一行中的单元格数与其他行相同。 接下来,我们使用一个循环来遍历每一列,并检查单元格是否为空白列。我们使用`cell.getText().trim().isEmpty()`方法来检查单元格的文本是否为空白或只包含空格。 如果单元格为空白列,我们获取该单元格的段落和运行对象,然后使用运行对象的`getFontSize()`方法获取字体大小。 请确保在代码中引入了正确的POI库以及其他所需的依赖项,并且在代码中导入了正确的类。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

moonfish0607

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值