Python从Word/PPT/PDF中抽取图片

本文介绍如何使用Python从Word、PPT和PDF文件中抽取图片。代码部分混合了网络上的资源,旨在创建一个控制台交互程序,但遇到pyinstaller打包后运行报错的问题。对于单个PPT或Word文件,可以通过改后缀为.zip并解压获取图片。提供完整代码供有兴趣的读者参考。
摘要由CSDN通过智能技术生成

Python从Word/PPT/PDF中抽取图片

PS
1:也是从网上各个帖子中学习的代码,因此代码的格式以及内容有粘贴网上其他大神的代码,如有侵权请告知删除
2:本次设计意在用pyinstaller生成控制台互动程序,但是生成后,总是提示“无法使用pix.save”,而在编译器中是能够正常运行的,如果有大神知道怎么回事,诚心请教。
3:如果从单一的PPT文件或者Word文件中提取图片,不必要使用该程序,只需要把文件后缀名改为zip,双击压缩包后,会有一个文件夹单独存放文件内的所有图片,拷出即可。

效果图:
在这里插入图片描述
完整代码:

# -*- coding:utf-8 -*-

import os, re
import docx
import pptx
import fitz

'''
扫描执行文件所在目录中的所有Word文件
'''
def Scan_Folder_ForWord(Folder_Path):
    for FolderName, SubFolders, FileNames in os.walk(Folder_Path):
        for FileName in FileNames:
            if FileName.split('.')[-1] == "doc" or FileName.split('.')[-1] == "docx":
                wordPath = FolderName + "\\" + FileName
                #建立一个"WordResult“的文件夹,获取的图片存放其中
                PicFolder = Folder_Path + "\\WordResult\\" + os.path.splitext(FileName)[0]
                get_pictures_ForWord(wordPath, PicFolder)

'''
扫描执行文件所在目录中的所有PPT文件
'''
def Scan_Folder_ForPPT(Folder_Path):
    for FolderName, SubFolders, FileNames in os.walk(Folder_Path):
        for FileName in FileNames:
            if FileName.split('.')[-1] == "ppt" or FileName.split('.')[-1] == "pptx":
                pptPath = FolderName + "\\" + FileName
                #建立一个"PPTResult“的文件夹,获取的图片存放其中
                PicFolder = Folder_Path + "\\PPTResult\\" 
  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值