本文作者:王碧琪
文字编辑:戴 雯
技术总编:张 邯
之前我们使用pymupdf提取了PDF文档中的文本信息,那么对于图片信息,也可以进行一波提取。今天我们一起来试试。
一、简介
待提取PDF文档“demo1”内容如下:
![abb8518cc5e3a2274caa8f0184ea1a0d.png](https://img-blog.csdnimg.cn/img_convert/abb8518cc5e3a2274caa8f0184ea1a0d.png)
可以观察到,该文档中共有4张图片。提取思路为:首先得到PDF文档的所有对象,然后遍历它们判断是否是图片类型,再将图片信息写入,最后保存为png格式文件。
二、图片提取
(一)引入相应的库
import fitz #处理PDF
import re #使用正则表达式
import os #进行相关路径的判断
(二)导入PDF&创建导出图片的文件夹
path = r"F: pdfsdemo1.pdf" #导入的pdf的路径
pic_path = r"F: ima" #导出图片的文件夹
if not os.path.exists(pic_path):
os.mkdir(pic_path)
else:
print("文件夹已存在