Python提取Word中的图片

2022/4/13更新:在使用doc2docx进行doc文件转为docx文件时,如果是使用pyqt获取用户输入,需要处理路径中的斜杠后,再调用doc2docx,在高版本pywin32中,已经不支持传入的路径由斜杠组成了,会引发pywintypes.com_error报错(老版本221可以支持斜杠组成的文件路径)

PyQt:快速转换路径中的斜杠(斜杠(/)与反斜杠(\)转换)icon-default.png?t=N7T8https://geo-ai.blog.csdn.net/article/details/124156128

Python提取PDF中的图片(需要的自取):

Python提取PDF中的图片

最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现;

最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现;

最近项目需要把word、PDF中的图片专门提取出来保存到另外的文件夹,最终成功实现;

重要的事情说三遍,详细步骤记录如下:

目录

1.问题背景

2.具体实现

2.1导入相关库

2.2定义函数

2.3word文件修改为文件夹

2.4还原为docx文件,并获得图片的列表

2.5将图片复制到需要保存的文件夹中

2.7删除tmp缓冲文件夹中的文件,用以存储下一次的文件

2.8运行程序

3效果预览

3.1源word

3.2提取的图片

 4完整程序获取

5附:doc转docx


1.问题背景

由于项目需要批量把Word中的图片提取出来,在网上查找了半天,基本都是提取word中文字的,没有找到可以把word中的图片提取出来的方法,所以才有了本博客!

注意:doc不支持这个方法,如果需要提取doc中的的图片,可以先转为docx,再提取即可

2.具体实现

2.1导入相关库

'''
===========================================
  @author:  renjiaxin
  @time:    2018/8/9 0009   10:00
===========================================
'''

import zipfile
import os
import shutil

2.2定义函数

为了方便和其他函数调用,直接写了个函数完成这个功能,在这里,我们需要以下四个参数:

  1. word文档的路径
  2. 临时文件保存的路径
  3. 临时解压的tmp路径
  4. 最后需要保存的store_path路径
def word2pic(path, zip_path, tmp_path, store_path):
    '''
    :param path:源文件
    :param zip_path:临时文件保存的路径
    :param tmp_path:中转图片文件夹
    :param store_path:最后保存结果的文件夹(需要手动创建)
    :return:
    '''

2.3word文件修改为文件夹

2.4还原为docx文件,并获得图片的列表

    # 将docx文件从zip还原为docx
    os.rename(zip_path, path)
    # 得到缓存文件夹中图片列表
    pic = os.listdir(os.path.join(tmp_path, 'word/media'))

2.5将图片复制到需要保存的文件夹中

并且我们将文件的名字命名为word所在的路径

    # 将图片复制到最终的文件夹中
    for i in pic:
        # 根据word的路径生成图片的名称
        new_name = path.replace('\\', '_')
        new_name = new_name.replace(':', '') + '_' + i
        shutil.copy(os.path.join(tmp_path + '/word/media', i), os.path.join(store_path, new_name))

2.7删除tmp缓冲文件夹中的文件,用以存储下一次的文件

    # 删除缓冲文件夹中的文件,用以存储下一次的文件
    for i in os.listdir(tmp_path):
        # 如果是文件夹则删除
        if os.path.isdir(os.path.join(tmp_path, i)):
            shutil.rmtree(os.path.join(tmp_path, i))

2.8运行程序

if __name__ == '__main__':
    # 源文件
    path = r'E:\dogcat\提取图片\log.docx'
    # docx重命名为zip
    zip_path = r'E:\dogcat\提取图片\log.zip'
    # 中转图片文件夹
    tmp_path = r'E:\dogcat\提取图片\tmp'
    # 最后保存结果的文件夹
    store_path = r'E:\dogcat\提取图片\测试'
    m = word2pic(path, zip_path, tmp_path, store_path)

3效果预览

3.1源word

3.2提取的图片

 4完整程序获取

        1.百度网盘下载我提供的工具:Python提取Word中的图片

        链接:https://pan.baidu.com/s/105FVztc9kxggMC-0eqzAnQ?pwd=5fk3 提取码:5fk3

注意:不要直接点击,右键复制后打开!!!
 

下载后打开“微信支付.png”使用微信扫码支付:

       获取压缩包密码:

               付款后微信留言购买的资源名称(上方橙色文字),博主会微信回复你解压密码(推荐,不需要加好友):

                         →  → 

               

注意:由于虚拟软件的可复制性,一旦售出,便会产生多个副本,因此概不退款,谢谢合作!

5附:doc转docx

from win32com import client
import traceback

def doc2docx(doc_name, docx_name):
    '''
    # doc转docx
    :param doc_name: doc文档路径
    :param docx_name: docx文档路径
    :return:
    '''
    try:
        # 首先将doc转换成docx
        word = client.Dispatch("Word.Application")
        doc = word.Documents.Open(doc_name)
        # 使用参数16表示将doc转换成docx
        doc.SaveAs(docx_name, 16)
        doc.Close()
        word.Quit()
    except:
        traceback.print_exc()

都看到这里了,还不赶紧点赞评论收藏走一波?

  • 21
    点赞
  • 100
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论
可以使用Pythondocx2txt和python-docx库来提取Word文档的图像。 首先,需要安装docx2txt和python-docx库。可以使用以下命令来安装它们: ``` pip install docx2txt pip install python-docx ``` 然后,可以使用以下代码来提取Word文档的图像: ```python import docx2txt import os from docx import Document # 提取Word文档图片 def extract_images_from_docx(docx_file): document = Document(docx_file) for image in document.inline_shapes: with open(image.image.filename, 'wb') as f: f.write(image.image.blob) # 提取Word文档图片并保存到指定目录 def extract_images_to_folder(docx_file, output_folder): document = Document(docx_file) for i, image in enumerate(document.inline_shapes): with open(os.path.join(output_folder, f"image_{i}.png"), 'wb') as f: f.write(image.image.blob) # 提取Word文档图片并返回图像数据 def extract_images_data(docx_file): document = Document(docx_file) images = [] for image in document.inline_shapes: images.append(image.image.blob) return images # 提取Word文档的图像并保存到指定目录 docx_file = 'example.docx' output_folder = 'images' extract_images_to_folder(docx_file, output_folder) ``` 这段代码提供了三个函数。第一个函数`extract_images_from_docx`将Word文档的图像提取出来并返回图像数据。第二个函数`extract_images_to_folder`将Word文档的图像提取出来并保存到指定目录。第三个函数`extract_images_data`将Word文档的图像提取出来并返回图像数据。 注意,这些函数仅适用于Word文档使用的图像是嵌入式的。如果Word文档使用的是链接图像,那么这些函数将无法提取图像。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

任博啥时候能毕业?

有用的话,请博主喝杯咖啡吧!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值