python提取pdf中的图片_PDF图片提取

本文作者:王碧琪
文字编辑:戴 雯
技术总编:张 邯

之前我们使用pymupdf提取了PDF文档中的文本信息,那么对于图片信息,也可以进行一波提取。今天我们一起来试试。

一、简介

待提取PDF文档“demo1”内容如下:

abb8518cc5e3a2274caa8f0184ea1a0d.png

可以观察到,该文档中共有4张图片。提取思路为:首先得到PDF文档的所有对象,然后遍历它们判断是否是图片类型,再将图片信息写入,最后保存为png格式文件。

二、图片提取

(一)引入相应的库

import fitz #处理PDF
import re #使用正则表达式
import os #进行相关路径的判断

(二)导入PDF&创建导出图片的文件夹

path = r"F: pdfsdemo1.pdf" #导入的pdf的路径
pic_path = r"F: ima" #导出图片的文件夹
if not os.path.exists(pic_path):
    os.mkdir(pic_path)
else:
    print("文件夹已存在
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值