Python实现从PDF中批量提取图片(1)

9 篇文章 1 订阅 ¥49.90 ¥99.00
本文介绍了如何使用Python和pymupdf库批量从PDF文件中提取图片。首先讲解了需求背景,然后详细阐述了利用os和fitz模块实现的过程,包括读取PDF文件和保存图片到新文件夹的操作。通过示例脚本addres_file.py和pdf_get_image.py,展示了具体代码实现。
摘要由CSDN通过智能技术生成

前言

本文是该专栏的第1篇,后面会持续分享Python办公自动化干货知识,记得关注。

假设现在有个项目需求,一个文件夹里面有多个pdf文件,现在需要批量从这些pdf里面提取出图片,并以此存入对应的新文件夹。

实现上面的需求,其实并不难,这里需要借助python的两个库

模块1.os

模块2.pymupdf

os这里就不细说了,针对文件夹os功能还是非常全的;这里需要注意的是,我们安装pymupdf的目的是,为了使用fitz

我们在终端直接使用pip命令安

可以使用Python的PyPDF2模块来提取PDF文件图片。首先需要安装PyPDF2模块,可以使用以下命令进行安装: ``` pip install PyPDF2 ``` 接下来,可以使用以下代码来批量提取PDF文件图片: ```python import PyPDF2 import os # 定义PDF文件夹路径 pdf_folder = r'path/to/pdf/folder' # 定义图片保存路径 image_folder = r'path/to/image/folder' # 遍历PDF文件夹的所有文件 for filename in os.listdir(pdf_folder): if filename.endswith('.pdf'): # 打开PDF文件 pdf_file = open(os.path.join(pdf_folder, filename), 'rb') pdf_reader = PyPDF2.PdfFileReader(pdf_file) # 遍历PDF文件的所有页面 for page_num in range(pdf_reader.getNumPages()): page = pdf_reader.getPage(page_num) # 遍历页面的所有对象 for obj in page['/Resources']['/XObject'].values(): if obj['/Subtype'] == '/Image': # 提取图片数据 image_data = obj.getData() # 保存图片 image_filename = os.path.splitext(filename)[0] + '_page' + str(page_num+1) + '_image' + str(obj['/Name'][1:]) + '.jpg' image_path = os.path.join(image_folder, image_filename) with open(image_path, 'wb') as image_file: image_file.write(image_data) # 关闭PDF文件 pdf_file.close() ``` 以上代码将遍历PDF文件夹的所有PDF文件,并提取每个文件所有页面的所有图片,并将图片保存到指定的图片文件夹图片文件名将以PDF文件名、页面号和图片编号作为前缀,例如:`example_page1_image1.jpg`。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

写python的鑫哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值