第一步,导入需要使用的库并设置待读取ppt的存储路径
from pptx import Presentation
import os
import pptx
filepath = "Mortality 6 2021.pptx"
file_name = filepath[:-5]
# 实例化ppt对象
prs = Presentation(filepath) #PPT文件路径
第二步:
创建result列表。(最后我们会将全部信息存储到result列表中,并写入一个txt文档。)
读取ppt 中的内容。
ppt这个库的逻辑是逐页(page)读取每个形状(shape)
我们的程序是首先判断遇到的形状是否是文本框,如果是文本框的话,直接将全部文本信息写入results。
如果不是文本框的话再判断这个形状是不是图片对象。如果是的话,新建一个文件夹,将这个图片存储到这个文件夹中。最后将扒到本地的图片的存储路径标准化为markdown格式写入results内。
results = []
for slide in prs.slides:
for shape in slide.shapes:
if shape.has_text_frame:
for paragraph in shape.text_frame.paragraphs:
part = []
for run in paragraph.runs:
part.append(run.text)
results.append(''.join(part))