python提取docx中的图片

最新推荐文章于 2024-05-31 17:45:55 发布

hustlearner

最新推荐文章于 2024-05-31 17:45:55 发布

阅读量971

点赞数 1

分类专栏：代码检错与查重

本文链接：https://blog.csdn.net/Mr__666/article/details/115693337

版权

代码检错与查重专栏收录该内容

35 篇文章 0 订阅

订阅专栏

需求

提交的实验报告中会包含大量图片；
需要把它们提取出来，并用文件命标记，方便后续的内容读取。

做法

输入输出为docx文档路径和结果输出的路径；
docx本质上是一个压缩文件，利用docx库找到其中的图片文件。

核心代码：

def get_pictures(word_path, result_path):
    """
    图片提取
    :param word_path: word路径
    :param result_path: 结果路径
    :return:
    """
    doc = docx.Document(word_path)
    dict_rel = doc.part._rels
    for rel in dict_rel:
        rel = dict_rel[rel]
        if "image" in rel.target_ref:
            if not os.path.exists(result_path):
                os.makedirs(result_path)
            img_name = re.findall("/(.*)", rel.target_ref)[0]
            word_name = os.path.splitext(word_path)[0]
            if os.sep in word_name:
                new_name = word_name.split('\\')[-1]
            else:
                new_name = word_name.split('/')[-1]
            img_name = f'{new_name}_{img_name}'
            with open(f'{result_path}/{img_name}', "wb") as f:
                f.write(rel.target_part.blob)

参考：python如何提取word内的图片

hustlearner

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python提取docx中的图片

需求提交的实验报告中会包含大量图片；需要把它们提取出来，并用文件命标记，方便后续的内容读取。做法输入输出为docx文档路径和结果输出的路径；docx本质上是一个压缩文件，利用docx库找到其中的图片文件。核心代码：def get_pictures(word_path, result_path): """ 图片提取 :param word_path: word路径 :param result_path: 结果路径 :return: """
复制链接

扫一扫