源 / 程序员大咖
本文利用 PyPDF包来处理 PDF文件,为了方便快捷,我这里直接将一个页面转换成图片,就不需要去识别页面中的每一个 PDF元素了,这是没必要的。
转换
核心代码很简单,就是将 PDF文件读取出来,转换成 PdfFileReader,然后就可以根据 PyPDF2的API去获得每一个页面的二进制数据,拿到二进制数据过后,就能很方便的进行图片处理了,这里用 wand包来进行图片处理。
1# -*- coding: utf-8 -*- 2 3import io 4from wand.image import Image 5from wand.color import Color 6from PyPDF2 import PdfFileReader, PdfFileWriter 7memo = {} 8''' 9需要注意的是一般PDF文件较大,如果一次性转换10整个PDF文件需要小心内存溢出的问题,我们这里11将第一次载入的整个PDF文件保存到内存,避免每12次读取的时候都重新载入。13'''14def getPdfReader(filename):15 reader = memo.get(filename, None)16 if reader is None:17 reader = PdfFileReader(filename, strict=False)18 memo[filename] = reader19 return reader2021def _run_convert(filename, page, res=120):22 idx = page + 123 pdfile = getPdfReader(filename)24 pageObj = pdfile.getPage(page)25 dst_pdf = PdfFileWriter()26 dst_pdf.addPage(pageObj)27 pdf_bytes = io.BytesIO()28 dst_pdf.write(pdf_bytes)29 pdf_bytes.seek(0)30 img = Image(file=pdf_bytes, resolution=res)31 img.format = png 32 img.compression_quality = 9033 img.background_color = Color("white")34 img_path = %s%d.png % (filename[:filename.rindex( . )], idx)35 img.save(filename=img_path)36 img.destroy()# -*- coding: utf-8 -*-
2
3import io
4from wand.image import Image
5from wand.color import Color
6from PyPDF2 import PdfFileReader, PdfFileWriter
7memo = {}
8'''
9需要注意的是一般PDF文件较大,如果一次性转换
10整个PDF文件需要小心内存溢出的问题,我们这里
11将第一次载入的整个PDF文件保存到内存,避免每
12次读取的时候都重新载入。
13'''
14def getPdfReader(filename):
15 reader = memo.get(filename, None)
16 if reader is None:
17 reader = PdfFileReader(filename, strict=False)
18 memo[filename] = reader
19 return reader
20
21def _run_convert(filename, page, res=120):
22 idx = page + 1
23 pdfile = getPdfReader(filename)
24 pageObj = pdfile.getPage(page)
25 dst_pdf = PdfFileWriter()
26 dst_pdf.addPage(pageObj)
27 pdf_bytes = io.BytesIO()
28 dst_pdf.write(pdf_bytes)
29 pdf_bytes.seek(0)
30 img = Image(file=pdf_bytes, resolution=res)
31 img.format = png
32 img.compression_quality = 90
33 img.background_color = Color("white")
34 img_path = %s%d.png % (filename[:filename.rindex( . )], idx)
35 img.save(filename=img_path)
36 img.destroy()
批量处理
上面已经完成了一个 PDF页面的转换,要完成整个文件的转换就很简单了,只需要拿到文件的总页码,然后循环执行就行。考虑到转换比较耗时,可以使用异步处理的方式加快速度。比如可以使用 celery来搭配处理,一定注意小心内存泄露。
——————————————
往期精彩: