Python提取Word中的图片

任博啥时候能毕业？

已于 2024-05-29 10:59:56 修改

阅读量3.3w

点赞数 21

分类专栏：杂七杂八文章标签： word提取图片 zip docx

于 2018-08-14 20:50:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_15969343/article/details/81673970

版权

杂七杂八专栏收录该内容

19 篇文章 2 订阅

订阅专栏

2022/4/13更新：在使用doc2docx进行doc文件转为docx文件时，如果是使用pyqt获取用户输入，需要处理路径中的斜杠后，再调用doc2docx，在高版本pywin32中，已经不支持传入的路径由斜杠组成了，会引发pywintypes.com_error报错（老版本221可以支持斜杠组成的文件路径）

PyQt：快速转换路径中的斜杠(斜杠(/)与反斜杠(\)转换)https://geo-ai.blog.csdn.net/article/details/124156128

Python提取PDF中的图片(需要的自取）：

Python提取PDF中的图片

最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；

最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；

最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；

重要的事情说三遍，详细步骤记录如下：

目录

2.1导入相关库

2.2定义函数

2.3word文件修改为文件夹

2.4还原为docx文件，并获得图片的列表

2.5将图片复制到需要保存的文件夹中

2.7删除tmp缓冲文件夹中的文件，用以存储下一次的文件

2.8运行程序

3.2提取的图片

4完整程序获取

5附:doc转docx

1.问题背景

由于项目需要批量把Word中的图片提取出来，在网上查找了半天，基本都是提取word中文字的，没有找到可以把word中的图片提取出来的方法，所以才有了本博客！

（注意：doc不支持这个方法，如果需要提取doc中的的图片，可以先转为docx,再提取即可）

2.具体实现

2.1导入相关库

'''
===========================================
  @author:  renjiaxin
  @time:    2018/8/9 0009   10:00
===========================================
'''

import zipfile
import os
import shutil

2.2定义函数

为了方便和其他函数调用，直接写了个函数完成这个功能，在这里，我们需要以下四个参数：

word文档的路径
临时文件保存的路径
临时解压的tmp路径
最后需要保存的store_path路径

def word2pic(path, zip_path, tmp_path, store_path):
    '''
    :param path:源文件
    :param zip_path:临时文件保存的路径
    :param tmp_path:中转图片文件夹
    :param store_path:最后保存结果的文件夹（需要手动创建）
    :return:
    '''

2.3word文件修改为文件夹

2.4还原为docx文件，并获得图片的列表

    # 将docx文件从zip还原为docx
    os.rename(zip_path, path)
    # 得到缓存文件夹中图片列表
    pic = os.listdir(os.path.join(tmp_path, 'word/media'))

2.5将图片复制到需要保存的文件夹中

并且我们将文件的名字命名为word所在的路径

    # 将图片复制到最终的文件夹中
    for i in pic:
        # 根据word的路径生成图片的名称
        new_name = path.replace('\\', '_')
        new_name = new_name.replace(':', '') + '_' + i
        shutil.copy(os.path.join(tmp_path + '/word/media', i), os.path.join(store_path, new_name))

2.7删除tmp缓冲文件夹中的文件，用以存储下一次的文件

    # 删除缓冲文件夹中的文件，用以存储下一次的文件
    for i in os.listdir(tmp_path):
        # 如果是文件夹则删除
        if os.path.isdir(os.path.join(tmp_path, i)):
            shutil.rmtree(os.path.join(tmp_path, i))

2.8运行程序

if __name__ == '__main__':
    # 源文件
    path = r'E:\dogcat\提取图片\log.docx'
    # docx重命名为zip
    zip_path = r'E:\dogcat\提取图片\log.zip'
    # 中转图片文件夹
    tmp_path = r'E:\dogcat\提取图片\tmp'
    # 最后保存结果的文件夹
    store_path = r'E:\dogcat\提取图片\测试'
    m = word2pic(path, zip_path, tmp_path, store_path)

3效果预览

3.1源word

3.2提取的图片

4完整程序获取

        1.百度网盘下载我提供的工具：Python提取Word中的图片：

链接：https://pan.baidu.com/s/105FVztc9kxggMC-0eqzAnQ?pwd=5fk3 提取码：5fk3

注意：不要直接点击，右键复制后打开！！！

下载后打开“微信支付.png”使用微信扫码支付：

       获取压缩包密码：

付款后微信留言购买的资源名称（上方橙色文字），博主会微信回复你解压密码（推荐，不需要加好友）：

                         →  →

注意：由于虚拟软件的可复制性，一旦售出，便会产生多个副本，因此概不退款，谢谢合作！

5附:doc转docx

from win32com import client
import traceback

def doc2docx(doc_name, docx_name):
    '''
    # doc转docx
    :param doc_name: doc文档路径
    :param docx_name: docx文档路径
    :return:
    '''
    try:
        # 首先将doc转换成docx
        word = client.Dispatch("Word.Application")
        doc = word.Documents.Open(doc_name)
        # 使用参数16表示将doc转换成docx
        doc.SaveAs(docx_name, 16)
        doc.Close()
        word.Quit()
    except:
        traceback.print_exc()

都看到这里了，还不赶紧点赞，评论，收藏走一波？

任博啥时候能毕业？

关注

21
点赞
踩
100

收藏

觉得还不错? 一键收藏
打赏
8
评论
Python提取Word中的图片

Python提取PDF中的图片(需要的自取）：Python提取PDF中的图片最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹，最终成功实现；重要的事情说三遍，详细步骤记录如下：目录............
复制链接

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

任博啥时候能毕业？ 有用的话，请博主喝杯咖啡吧！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。