C# 使用openxml解析PPTX中的文本内容

最新推荐文章于 2024-06-26 08:00:00 发布

czwy2008

最新推荐文章于 2024-06-26 08:00:00 发布

阅读量1.1k

点赞数 1

分类专栏： openxml 文章标签： openxml

本文链接：https://blog.csdn.net/czwy2008/article/details/117929145

版权

本文详细介绍了如何使用C#结合DocumentFormat.OpenXml和FreeSpire.Doc库来解析PPTX文档中的文本内容。内容涉及解析直接保存在slide*.xml文件中的文本、以oleObject形式存储在word文档中的内容以及存在于bin文件中的数据。解析步骤包括引入库、读取数据，并针对不同数据存储方式进行解析。

摘要由CSDN通过智能技术生成

2.1 直接保存在slide*.xml文件的节点数据

2.2 以oleObject对象的形式存储在word文档中

2.3 以oleObject对象的形式存储在bin文件中

参考资料：

前言

本文讨论的仅针对微软Office 2007以后的（OOXML定义）PowerPoint文档，Office 2007以前的用二进制格式定义的（ppt格式）文档不在本文讨论范围。

一、依赖类库

本文需要依赖两个免费的第三方类库：DocumentFormat.OpenXml和FreeSpire.Doc。

DocumentFormat.OpenXml用于加载解析pptx文档，FreeSpire.Doc用于解析pptx中嵌入的doc文档内容，详见解析嵌入的doc的文本。

二、解析步骤

1.引入库

通过Nuget引入类库

<packages>
  <package id="DocumentFormat.OpenXml" version="2.13.0" targetFramework="net452" />
  <package id="FreeSpire.Doc" version="7.11.0" targetFramework="net452" />
</packages>

2.读取数据

PPTX中的文本内容主要以三种形式存储。1、直接保存在slide*.xml文件的节点数据；2、以oleObject对象的形式存储在word文档中；3、以oleObject对象的形式存储在bin文件中。接下来针对这三种情况分别分析如何解析获取内容。

首先需要读取pptx文件，解析每一个页面的slide对象

using (var presentationDocument = PresentationDocument.Open(filePath, false))
{
    var presentationPart = presentationDocument.PresentationPart;
    var presentation = presentationPart.Presentation;
    // 先获取页面
    var slideIdList = presentation.SlideIdList;
    foreach (var slideId in slideIdList.ChildElements.OfType<SlideId>())
    {
        //TODO:解析页面的内容
    }

2.1 直接保存在slide*.xml文件的节点数据

直接保存在slide*.xml文件的文本数据只需遍历页面中的每一个paragraph对象即可，需要注意的是此处的用到的是DocumentFormat.OpenXml.Drawing.Paragraph。

 foreach (var paragraph in
     slidePart.Slide.Descendants<DocumentFormat.OpenXml.Drawing.Paragraph>())
{
    contentText.Length = 0;
    foreach (var text in paragraph.Descendants<DocumentFormat.OpenXml.Drawing.Text>())
    {
        contentText.Append(text.InnerText)

最低0.47元/天解锁文章

czwy2008

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
C# 使用openxml解析PPTX中的文本内容

目录一、依赖类库二、解析步骤1.引入库2.读取数据2.1 直接保存在slide*.xml文件的节点数据2.2以oleObject对象的形式存储在word文档中2.3 以oleObject对象的形式存储在bin文件中参考资料：前言本文讨论的仅针对微软Office 2007以后的（OOXML定义）PowerPoint文档，Office 2007以前的用二进制格式定义的（ppt格式）文档不在本文讨论范围。一、依赖类库本文需要依赖两个免费的第三...
复制链接

扫一扫

专栏目录