需求
提交的实验报告中会包含大量图片;
需要把它们提取出来,并用文件命标记,方便后续的内容读取。
做法
输入输出为docx文档路径和结果输出的路径;
docx本质上是一个压缩文件,利用docx库找到其中的图片文件。
核心代码:
def get_pictures(word_path, result_path):
"""
图片提取
:param word_path: word路径
:param result_path: 结果路径
:return:
"""
doc = docx.Document(word_path)
dict_rel = doc.part._rels
for rel in dict_rel:
rel = dict_rel[rel]
if "image" in rel.target_ref:
if not os.path.exists(result_path):
os.makedirs(result_path)
img_name = re.findall("/(.*)", rel.target_ref)[0]
word_name = os.path.splitext(word_path)[0]
if os.sep in word_name:
new_name = word_name.split('\\')[-1]
else:
new_name = word_name.split('/')[-1]
img_name = f'{new_name}_{img_name}'
with open(f'{result_path}/{img_name}', "wb") as f:
f.write(rel.target_part.blob)