【python自动化】读取ppt内全部文本和图片信息并导出markdown文档

最新推荐文章于 2024-08-29 04:15:43 发布

3ILIY

最新推荐文章于 2024-08-29 04:15:43 发布

阅读量3.5k

点赞数 2

文章标签： python 自动化开发语言

本文链接：https://blog.csdn.net/ZHOUYANYIJIE/article/details/121092568

版权

本文介绍了如何使用Python库读取PowerPoint（PPT）文件中的所有文本和图片，然后将这些信息导出为Markdown文档。通过遍历PPT的每一页和每个形状，程序会识别文本框并保存文本，同时检测图片并将其保存到本地文件夹，最后将图片路径转换为Markdown格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一步，导入需要使用的库并设置待读取ppt的存储路径

from pptx import Presentation
import os
import pptx

filepath = "Mortality 6 2021.pptx"
file_name = filepath[:-5]
# 实例化ppt对象
prs = Presentation(filepath) #PPT文件路径

第二步：

创建result列表。（最后我们会将全部信息存储到result列表中，并写入一个txt文档。）

读取ppt 中的内容。

ppt这个库的逻辑是逐页（page）读取每个形状（shape）

我们的程序是首先判断遇到的形状是否是文本框，如果是文本框的话，直接将全部文本信息写入results。

如果不是文本框的话再判断这个形状是不是图片对象。如果是的话，新建一个文件夹，将这个图片存储到这个文件夹中。最后将扒到本地的图片的存储路径标准化为markdown格式写入results内。

results = []
for slide in prs.slides:
    for shape in slide.shapes:
        if shape.has_text_frame:
            for paragraph in shape.text_frame.paragraphs:
                part = []
                for run in paragraph.runs:
                    part.append(run.text)
                results.append(''.join(part))

最低0.47元/天解锁文章