20多行 Python 代码优雅搞定 PDF 转换成图片


 / 程序员大咖

本文利用 PyPDF包来处理 PDF文件,为了方便快捷,我这里直接将一个页面转换成图片,就不需要去识别页面中的每一个 PDF元素了,这是没必要的。

转换

核心代码很简单,就是将 PDF文件读取出来,转换成 PdfFileReader,然后就可以根据 PyPDF2的API去获得每一个页面的二进制数据,拿到二进制数据过后,就能很方便的进行图片处理了,这里用 wand包来进行图片处理。

 
 
 1# -*- coding: utf-8 -*- 2 3import io 4from wand.image import Image 5from wand.color import Color 6from PyPDF2 import PdfFileReader, PdfFileWriter 7memo = {} 8''' 9需要注意的是一般PDF文件较大,如果一次性转换10整个PDF文件需要小心内存溢出的问题,我们这里11将第一次载入的整个PDF文件保存到内存,避免每12次读取的时候都重新载入。13'''14def getPdfReader(filename):15   reader = memo.get(filename, None)16   if reader is None:17       reader = PdfFileReader(filename, strict=False)18       memo[filename] = reader19   return reader2021def _run_convert(filename, page, res=120):22   idx = page + 123   pdfile = getPdfReader(filename)24   pageObj = pdfile.getPage(page)25   dst_pdf = PdfFileWriter()26   dst_pdf.addPage(pageObj)27   pdf_bytes = io.BytesIO()28   dst_pdf.write(pdf_bytes)29   pdf_bytes.seek(0)30   img = Image(file=pdf_bytes, resolution=res)31   img.format =  png 32   img.compression_quality = 9033   img.background_color = Color("white")34   img_path =  %s%d.png  % (filename[:filename.rindex( . )], idx)35   img.save(filename=img_path)36   img.destroy()# -*- coding: utf-8 -*-
2
3import io
4from wand.image import Image
5from wand.color import Color
6from PyPDF2 import PdfFileReader, PdfFileWriter
7memo = {}
8'''
9需要注意的是一般PDF文件较大,如果一次性转换
10整个PDF文件需要小心内存溢出的问题,我们这里
11将第一次载入的整个PDF文件保存到内存,避免每
12次读取的时候都重新载入。
13'''

14def getPdfReader(filename):
15   reader = memo.get(filename, None)
16   if reader is None:
17       reader = PdfFileReader(filename, strict=False)
18       memo[filename] = reader
19   return reader
20
21def _run_convert(filename, page, res=120):
22   idx = page + 1
23   pdfile = getPdfReader(filename)
24   pageObj = pdfile.getPage(page)
25   dst_pdf = PdfFileWriter()
26   dst_pdf.addPage(pageObj)
27   pdf_bytes = io.BytesIO()
28   dst_pdf.write(pdf_bytes)
29   pdf_bytes.seek(0)
30   img = Image(file=pdf_bytes, resolution=res)
31   img.format =  png 
32   img.compression_quality = 90
33   img.background_color = Color("white")
34   img_path =  %s%d.png  % (filename[:filename.rindex( . )], idx)
35   img.save(filename=img_path)
36   img.destroy()

批量处理

上面已经完成了一个 PDF页面的转换,要完成整个文件的转换就很简单了,只需要拿到文件的总页码,然后循环执行就行。考虑到转换比较耗时,可以使用异步处理的方式加快速度。比如可以使用 celery来搭配处理,一定注意小心内存泄露。

——————————————

往期精彩:

640?wx_fmt=png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值