【JAVA_POI】解析PPT文档(ppt和pptx)4.1.2版本

一、ppt和pptx区别

二、java中对PPT文档的解析

2.1引入的jar包

        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>4.1.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>4.1.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-scratchpad</artifactId>
            <version>4.1.2</version>
        </dependency>

poi各个jar包的作用图

2.2常用方法

HSLFSlideShow类:
hss.getPictureData(); 返回此幻灯片的所有图片。
hss.getSlides(); 返回幻灯片中找到的所有普通幻灯片。

HSLFSlide类(表示一张幻灯片对象):
hslfSlide.getHeadersFooters(); 此幻灯片的页眉/页脚
hslfSlide.getShapes(); 得到幻灯片中形状的列表。

HSLFShape类(表示工作表中包含的所有形状):
hslfShape.getShapeType(); 该形状的类型。

解析pptx文件和以上大同小异,详细的见后面的工具类。

2.3准备要解析的文档

创建一个ppt文档,再创建一个pptx文档。

2.4解析这个PPT文档 PptUtils

package com.xuexue.firstproject.utils;


import org.apache.poi.hslf.extractor.PowerPointExtractor;
import org.apache.poi.hslf.model.HeadersFooters;
import org.apache.poi.hslf.usermodel.*;
import org.apache.poi.sl.extractor.SlideShowExtractor;
import org.apache.poi.sl.usermodel.SlideShow;
import org.apache.poi.xslf.usermodel.*;


import java.io.*;
import java.util.List;
import java.util.UUID;

public class PptUtils {
    public static void main(String[] args) {
        String filePath = "F:\\work\\other\\测试pptx文档解析.pptx";
        //String filePath = "F:\\work\\other\\测试ppt文档解析.ppt";
        String suffix = filePath.substring(filePath.lastIndexOf("."));
        if(".pptx".equals(suffix)){
            System.out.println("文件类型是.pptx");
            dealPptX(filePath);
        }
        if(".ppt".equals(suffix)){
            System.out.println("文件类型是.ppt");
            dealPpt(filePath);
        }
    }

    public static void dealPpt(String filePath){

        try {
            InputStream input = new FileInputStream(filePath);
            HSLFSlideShow hss = new HSLFSlideShow(input);
            //得到全部文本
            String pptText = readBySlideShowExtractor(hss);
            //System.out.println(pptText);
            //hss.getPictureData(); 返回此幻灯片的所有图片。
            List<HSLFPictureData> hslfPictureDataList = hss.getPictureData();
            //输出图片
            for (HSLFPictureData hslfPictureData : hslfPictureDataList){
                byte[] data = hslfPictureData.getData();
                FileOutputStream out = new FileOutputStream("F:\\work\\other\\pptPicture\\" + UUID.randomUUID() + ".jpg");
                out.write(data);
                out.close();
            }

            //HSLFSlide 表示一张幻灯片对象
            //hss.getSlides(); 返回幻灯片中找到的所有普通幻灯片
            List<HSLFSlide> hslfSlideList = hss.getSlides();
            for (HSLFSlide hslfSlide : hslfSlideList){
                //hslfSlide.getHeadersFooters(); 此幻灯片的页眉/页脚
                HeadersFooters headersFooters = hslfSlide.getHeadersFooters();
                //headersFooters.getFooterText();页脚文字
                System.out.println(headersFooters.getFooterText());
                //headersFooters.getHeaderText() 标头文字
                System.out.println(headersFooters.getHeaderText());
                //headersFooters.getDateTimeText() 这是用户希望在页脚中显示的固定日期
                //headersFooters.isDateTimeVisible() 日期是否显示在页脚中。
                //headersFooters.isUserDateVisible() 是否使用自定义用户日期而不是今天的日期。
                if(headersFooters.isDateTimeVisible() && headersFooters.isUserDateVisible()){
                    System.out.println(headersFooters.getDateTimeText());
                }
                //headersFooters.getDateTimeFormat() 一个整数,指定用于设置日期时间样式的格式ID。
                System.out.println(headersFooters.getDateTimeFormat());

                //HSLFShape表示工作表中包含的所有形状(幻灯片或注释)
                List <HSLFShape> hslfShapeList = hslfSlide.getShapes();
                for (HSLFShape hslfShape : hslfShapeList){
                    System.out.println("形状类型:"+hslfShape.getShapeType());
                    if(hslfShape instanceof HSLFTextShape){
                        System.out.println("HSLFTextShape");
                        String text = ((HSLFTextShape) hslfShape).getText();
                        System.out.println(text);
                    }
                    if(hslfShape instanceof HSLFTable){
                        System.out.println("HSLFTable");
                        int rowSize = ((HSLFTable) hslfShape).getNumberOfRows();
                        int columnSize = ((HSLFTable) hslfShape).getNumberOfColumns();
                        for (int rowNum = 0; rowNum < rowSize; rowNum++) {
                            for (int columnNum = 0; columnNum < columnSize; columnNum++) {
                                HSLFTableCell cell = ((HSLFTable) hslfShape).getCell(rowNum, columnNum);
                                if (cell != null) {
                                    String text = cell.getText();
                                    System.out.println(text);
                                }
                            }
                        }
                    }
                }
            }

        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    public static void dealPptX(String filePath){

        try {
            InputStream input = new FileInputStream(filePath);
            XMLSlideShow xss = new XMLSlideShow(input);
            //得到全部文本
            String pptText = readBySlideShowExtractor(xss);
            //System.out.println(pptText);
            //hss.getPictureData(); 返回此幻灯片的所有图片。
            List<XSLFPictureData> xslfPictureDataList = xss.getPictureData();
            //输出图片
            for (XSLFPictureData xslfPictureData : xslfPictureDataList){
                byte[] data = xslfPictureData.getData();
                FileOutputStream out = new FileOutputStream("F:\\work\\other\\pptPicture\\" + UUID.randomUUID() + ".jpg");
                out.write(data);
                out.close();
            }

            //HSLFSlide 表示一张幻灯片对象
            //hss.getSlides(); 返回幻灯片中找到的所有普通幻灯片
            List<XSLFSlide> xslfSlideList = xss.getSlides();
            for (XSLFSlide xslfSlide : xslfSlideList){
                //HSLFShape表示工作表中包含的所有形状(幻灯片或注释)
                List <XSLFShape> xslfShapeList = xslfSlide.getShapes();
                for (XSLFShape xslfShape : xslfShapeList){
                    if(xslfShape instanceof XSLFTextShape){
                        System.out.println("XSLFTextShape");
                        String text = ((XSLFTextShape) xslfShape).getText();
                        System.out.println(text);
                    }
                    if(xslfShape instanceof XSLFTable){
                        System.out.println("HSLFTable");
                        int rowSize = ((XSLFTable) xslfShape).getNumberOfRows();
                        int columnSize = ((XSLFTable) xslfShape).getNumberOfColumns();
                        for (int rowNum = 0; rowNum < rowSize; rowNum++) {
                            for (int columnNum = 0; columnNum < columnSize; columnNum++) {
                                XSLFTableCell cell = ((XSLFTable) xslfShape).getCell(rowNum, columnNum);
                                if (cell != null) {
                                    String text = cell.getText();
                                    System.out.println(text);
                                }
                            }
                        }
                    }
                }
            }

        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    /**
     * 得到文档的全部的文本,包括页脚,不包括批注
     * @param slideShow ppt/pptx文档对象
     * @return 全部文本
     */
    public static String readBySlideShowExtractor(SlideShow slideShow){
        SlideShowExtractor slideShowExtractor = new SlideShowExtractor(slideShow);
        return slideShowExtractor.getText();
    }
    //PowerPointExtractor即将要淘汰,建议使用SlideShowExtractor
    public static String readByPowerPointExtractor(InputStream is){
        PowerPointExtractor extractor= null;
        try {
            extractor = new PowerPointExtractor(is);
        } catch (IOException e) {
            e.printStackTrace();
        }
        return extractor.getText();
    }
}

对你有帮助就点个赞呗~~

poi官网:https://poi.apache.org/index.html

  • 8
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖:【***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖:【***.jar Gradle依赖信息(可用于项目build.gradle).txt】 源代码下载地址:【***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字: 中文-英文对照文档,中英对照文档,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压 【***.jar中文文档.zip】,再解压其中的 【***-javadoc-API文档-中文(简体)版.zip】,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·本文档为双语同时展示,一行原文、一行译文,可逐行对照,避免了原文/译文来回切换的麻烦; ·有原文可参照,不再担心翻译偏差误导; ·边学技术、边学英语。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件
要使用Java中的POI库读取Word文档并将其存储到数据库中,可以按照以下步骤进行操作: 1. 添加POI库的依赖 在Maven项目中,可以在pom.xml文件中添加如下依赖: ```xml <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.1.2</version> </dependency> ``` 2. 读取Word文档 可以使用POI库中的XWPFDocument类读取Word文档。下面是一个简单的示例代码: ```java File file = new File("path/to/word/document.docx"); FileInputStream fis = new FileInputStream(file); XWPFDocument document = new XWPFDocument(fis); ``` 3. 解析Word文档并获取需要存储的数据 可以使用POI库提供的API来解析Word文档中的内容,如获取段落、表格、图片等。根据需要存储的数据类型,可以选择不同的API进行解析。下面是一个示例代码,用于获取Word文档中的所有段落: ```java List<String> paragraphs = new ArrayList<>(); List<XWPFParagraph> paragraphList = document.getParagraphs(); for (XWPFParagraph paragraph : paragraphList) { String text = paragraph.getText(); paragraphs.add(text); } ``` 4. 将数据存储到数据库中 根据需要存储的数据类型,可以选择不同的数据库操作API进行存储。以下是一个示例代码,用于将获取到的段落存储到MySQL数据库中: ```java String url = "jdbc:mysql://localhost:3306/mydatabase"; String user = "root"; String password = "mypassword"; Connection conn = DriverManager.getConnection(url, user, password); PreparedStatement pstmt = conn.prepareStatement("INSERT INTO paragraphs (text) VALUES (?)"); for (String paragraph : paragraphs) { pstmt.setString(1, paragraph); pstmt.executeUpdate(); } ``` 注意:以上代码只是一个示例,实际应用中需要根据具体需求进行修改。同时,为了保证程序的健壮性,需要添加异常处理代码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值