python pdf转图片 poppler_Python将PDF转成图片—PyMuPDF和pdf2image

本文介绍了如何使用Python的PyMuPDF和pdf2image库将PDF转换为PNG图片,包括指定区域截图。PyMuPDF转换速度快,支持按需截取页面部分,而pdf2image是通过poppler工具进行转换。对于大量PDF转换,PyMuPDF性能更优。
摘要由CSDN通过智能技术生成

前言:在最近的测试中遇到一个与PDF相关的测试需求,其中有一个过程是将PDF转换成图片,然后对图片进行测试。

粗略的试了好几种方式,其中语言尝试了Python和Java,总体而言所找到的Python方式相对比Java更快一些,更简单一些。

下面首先分享一下Python将PDF转换成图片,Java后续有时间在进行分享。

需求:我需要先将PDF转换成为PNG图片,并截取图片的一部分存储,然后作为测试目标进行测试。

操作:

1、PDF转PNG图片

2、对PNG图片进行指定区域截图,在另存到指定文件夹下

1、PyMuPDF将PDF转换成图片

import sys, fitzimport osimport datetimedef pyMuPDF_fitz(pdfPath, imagePath):startTime_pdf2img = datetime.datetime.now()#开始时间print("imagePath="+imagePath)pdfDoc = fitz.open(pdfPath)for pg in range(pdfDoc.pageCount):page = pdfDoc[pg]rotate = int(0)# 每个尺寸的缩放系数为1.3,这将为我们生成分辨率提高2.6的图像。# 此处若是不做设置,默认图片大小为:792X612, dpi=96zoom_x = 1.33333333 #(1.33333333-->1056x816) (2-->1584x1224)zoom_y = 1.33333333mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)pix = page.getPixmap(matrix=mat, alpha=False)if not os.path.exists(imagePath):#判断存放图片的文件夹是否存在os.makedirs(imagePath) # 若图片文件夹不存在就创建pix.writePNG(imagePath+'/'+'images_%s.png' % pg)#将图片写入指定的文件夹内endTime_pdf2img = datetime.datetime.now()#结束时间print('pdf2img时间=',(endTime_pdf2img - startTime_pdf2img).seconds)if __name__ == "__main__":pdfPath = '../path/demo.pdf'imagePath = '../path/image'pyMuPDF_fitz(pdfPath, imagePath)

PDF文档页数超过100页的话需要十几秒,因为先转换成一整张1056X816的图片,再对本地文件中的所有图片进行遍历截图,时间上比较慢,通过查看文档发现:

还可以在转换的同时指定图片的大小,对图片指定区域进行截取,这样快很多

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python是一种广泛使用的编程语言,可以通过安装相关的第三方库来实现将PDF文件换为图片。 首先,您需要安装Pythonpdf2image库。该库可以将PDF文件换为PIL图像,也就是Python Imaging Library图像。 安装pdf2image库后,您可以使用以下代码来将PDF文件换为图像: ```python from pdf2image import convert_from_path, convert_from_bytes pages = convert_from_path('example.pdf', dpi=200) for page in pages: page.save('example.jpg', 'JPEG') ``` 在上述代码中,convert_from_path函数将PDF文件的路径作为参数,并将dpi设置为200。这将生一个包含所有PDF页面的列表。然后循环列表中的每一页,并将它们保存为JPEG文件。 您也可以将convert_from_path函数更改为convert_from_bytes函数,该函数可以读取二进制数据而不是文件名,并且可以使用options参数来更改图像的大小和质量。 总之,Python是一种非常强大和灵活的编程语言,可以用来处理几乎所有的任务,包括将PDF文件换为图像。通过安装pdf2image库并调用相应的函数,您可以快速而轻松地将PDF文件换为图像。 ### 回答2: Python可以使用一个强大的库来实现将PDF图片的功能,这个库叫做“wand”。Wand库是用于在Python中进行ImageMagick的绑定,它可以与ImageMagick库无缝集,提供了许多工具来处理图像,包括将PDF文件图像的功能。 步骤如下所示: 1. 安装Wand库和ImageMagick库。你需要确保它们都被正确安装在你的计算机上。 2. 导入Wand库并加载所需的图像。你可以使用以下代码导入Wand库。 ``` from wand.image import Image ``` 然后你可以使用以下代码加载你的PDF文件。 ``` with Image(filename='your_file.pdf', resolution=300) as img: img.format = 'png' img.save(filename='your_file.png') ``` 在这个代码示例中,我们首先打开PDF文件,设置换后的文件格式为PNG,并将换后的文件保存在磁盘上。 3. 运行你的代码。运行上面的代码来将PDF文件图像,并在你的磁盘上保存为PNG格式文件。你可以使用其他图像格式,比如JPEG,只需简单地使用“jpg”或“jpeg”代替“png”。 总之,使用PythonPDF文件图像是非常简单的。使用Wand库,你可以轻松读取PDF文件并将其换为图像,从而方便地在你的Python应用程序中使用它们。 ### 回答3: Python可以通过使用pdf2image库来将PDF文件图片。首先需要安装pdf2image库,可以使用以下命令: ``` pip install pdf2image ``` 接着,可以使用如下代码: ```python from pdf2image import convert_from_path # PDF文件路径 pdf_path = "example.pdf" # 将PDF图片 images = convert_from_path(pdf_path) # 保存图片 for i, image in enumerate(images): image.save(f"output_{i}.jpg", "JPEG") ``` 上述代码中,我们使用pdf2image库中的`convert_from_path()`函数来将PDF图片。该函数需要传入PDF文件路径,并返回一个图片列表。我们可以使用Python的循环语句将图片保存到指定的文件夹中。 需要注意的是,pdf2image库依赖于Poppler工具。如果在使用过程中遇到问题,可以尝试先安装Poppler工具,然后重新安装pdf2image库。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值