前言
.docx文件其实也就是一个压缩文件,当我们将一个docx文件扩展该为zip后可以看到如下目录
其中我们要找的图片就在word/media目录内,如图
所以,要提取word内的图片就需要将docx弄成zip文件,然后解压,在从media文件内取得图片,然后再将zip文件弄成docx文件(或者可以直接拷贝一份源文件,将扩展改为zip文件,用完后直接将zip文件删除)
代码实现
注:以下代码只适用于docx文件,如果你的文件是doc文件,请将它转为docx文件。参考随笔
import os
import shutil
import zipfile
def get_picture(word_path, result_path):
"""
获取word内的所有图片
:param word_path: word文件
:param result_path: 结果目录,无需手动创建
:return: None or generator,None:word内没有图片,generator:每个图片的路径
"""
zip_path = f'{os.path.splitext(word_path)[0]}.zip'
tmp_path = f'{os.path.splitext(word_path)[0]}'
os.rename(word_path, zip_path)
# 解压zip文件
with zipfile.ZipFile(zip_path, 'r') as f:
for file in f.namelist():
f.extract(file, tmp_path)
os.rename(zip_path, word_path)
# 注:word图片在zip文件内的word/media目录下
pic_path = os.path.join(tmp_path, 'word/media')
if not os.path.exists(pic_path):
shutil.rmtree(tmp_path)
return 'no pictures found'
pictures = os.listdir(pic_path)
if not os.path.exists(result_path):
os.makedirs(result_path)
for picture in pictures:
# 根据word的文件名生成图片的名称
word_name = os.path.splitext(word_path)[0]
if os.sep in word_name:
mid = word_name.replace('/', '\\')
new_name = mid.split('\\')[-1]
else:
mid = word_name.replace('\\', '/')
new_name = mid.split('/')[-1]
picture_name = f'{new_name}_{picture}'
shutil.copy(os.path.join(pic_path, picture), os.path.join(result_path, picture_name))
shutil.rmtree(tmp_path)
return (os.path.join(result_path, pic) for pic in os.listdir(result_path))
word_path可以支持所有类型路径,如
p = r"C:\Users\Desktop\test\小说.docx"
p1 = "C:/Users/Desktop/test/小说.docx"
p2 = "C:\\Users\\Desktop\\test\\小说.docx"