Python从Word/PPT/PDF中抽取图片_python如何判断word文档中的内容是不是图片?-CSDN博客

本文链接：https://blog.csdn.net/kaikai45/article/details/123176924

本文介绍如何使用Python从Word、PPT和PDF文件中抽取图片。代码部分混合了网络上的资源，旨在创建一个控制台交互程序，但遇到pyinstaller打包后运行报错的问题。对于单个PPT或Word文件，可以通过改后缀为.zip并解压获取图片。提供完整代码供有兴趣的读者参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python从Word/PPT/PDF中抽取图片

PS
1：也是从网上各个帖子中学习的代码，因此代码的格式以及内容有粘贴网上其他大神的代码，如有侵权请告知删除
2：本次设计意在用pyinstaller生成控制台互动程序，但是生成后，总是提示“无法使用pix.save”，而在编译器中是能够正常运行的，如果有大神知道怎么回事，诚心请教。
3：如果从单一的PPT文件或者Word文件中提取图片，不必要使用该程序，只需要把文件后缀名改为zip，双击压缩包后，会有一个文件夹单独存放文件内的所有图片，拷出即可。

效果图：
在这里插入图片描述
完整代码：

# -*- coding:utf-8 -*-

import os, re
import docx
import pptx
import fitz

'''
扫描执行文件所在目录中的所有Word文件
'''
def Scan_Folder_ForWord(Folder_Path):
    for FolderName, SubFolders, FileNames in os.walk(Folder_Path):
        for FileName in FileNames:
            if FileName.split('.')[-1] == "doc" or FileName.split('.')[-1] == "docx":
                wordPath = FolderName + "\\" + FileName
                #建立一个"WordResult“的文件夹，获取的图片存放其中
                PicFolder = Folder_Path + "\\WordResult\\" + os.path.splitext(FileName)[0]
                get_pictures_ForWord(wordPath, PicFolder)

'''
扫描执行文件所在目录中的所有PPT文件
'''
def Scan_Folder_ForPPT(Folder_Path):
    for FolderName, SubFolders, FileNames in os.walk(Folder_Path):
        for FileName in FileNames:
            if FileName.split('.')[-1] == "ppt" or FileName.split('.')[-1] == "pptx":
                pptPath = FolderName + "\\" + FileName
                #建立一个"PPTResult“的文件夹，获取的图片存放其中
                PicFolder = Folder_Path + "\\PPTResult\\"