Python从Word/PPT/PDF中抽取图片
PS
1:也是从网上各个帖子中学习的代码,因此代码的格式以及内容有粘贴网上其他大神的代码,如有侵权请告知删除
2:本次设计意在用pyinstaller生成控制台互动程序,但是生成后,总是提示“无法使用pix.save”,而在编译器中是能够正常运行的,如果有大神知道怎么回事,诚心请教。
3:如果从单一的PPT文件或者Word文件中提取图片,不必要使用该程序,只需要把文件后缀名改为zip,双击压缩包后,会有一个文件夹单独存放文件内的所有图片,拷出即可。
效果图:
完整代码:
# -*- coding:utf-8 -*-
import os, re
import docx
import pptx
import fitz
'''
扫描执行文件所在目录中的所有Word文件
'''
def Scan_Folder_ForWord(Folder_Path):
for FolderName, SubFolders, FileNames in os.walk(Folder_Path):
for FileName in FileNames:
if FileName.split('.')[-1] == "doc" or FileName.split('.')[-1] == "docx":
wordPath = FolderName + "\\" + FileName
#建立一个"WordResult“的文件夹,获取的图片存放其中
PicFolder = Folder_Path + "\\WordResult\\" + os.path.splitext(FileName)[0]
get_pictures_ForWord(wordPath, PicFolder)
'''
扫描执行文件所在目录中的所有PPT文件
'''
def Scan_Folder_ForPPT(Folder_Path):
for FolderName, SubFolders, FileNames in os.walk(Folder_Path):
for FileName in FileNames:
if FileName.split('.')[-1] == "ppt" or FileName.split('.')[-1] == "pptx":
pptPath = FolderName + "\\" + FileName
#建立一个"PPTResult“的文件夹,获取的图片存放其中
PicFolder = Folder_Path + "\\PPTResult\\"