20多行 Python 代码优雅搞定 PDF 转换成图片

最新推荐文章于 2024-07-03 09:19:23 发布

R语言中文社区

最新推荐文章于 2024-07-03 09:19:23 发布

阅读量485

点赞数

源 / 程序员大咖

本文利用 PyPDF包来处理 PDF文件，为了方便快捷，我这里直接将一个页面转换成图片，就不需要去识别页面中的每一个 PDF元素了，这是没必要的。

转换

核心代码很简单，就是将 PDF文件读取出来，转换成 PdfFileReader，然后就可以根据 PyPDF2的API去获得每一个页面的二进制数据，拿到二进制数据过后，就能很方便的进行图片处理了，这里用 wand包来进行图片处理。

 1# -*- coding: utf-8 -*- 2 3import io 4from wand.image import Image 5from wand.color import Color 6from PyPDF2 import PdfFileReader, PdfFileWriter 7memo = {} 8''' 9需要注意的是一般PDF文件较大，如果一次性转换10整个PDF文件需要小心内存溢出的问题，我们这里11将第一次载入的整个PDF文件保存到内存，避免每12次读取的时候都重新载入。13'''14def getPdfReader(filename):15   reader = memo.get(filename, None)16   if reader is None:17       reader = PdfFileReader(filename, strict=False)18       memo[filename] = reader19   return reader2021def _run_convert(filename, page, res=120):22   idx = page + 123   pdfile = getPdfReader(filename)24   pageObj = pdfile.getPage(page)25   dst_pdf = PdfFileWriter()26   dst_pdf.addPage(pageObj)27   pdf_bytes = io.BytesIO()28   dst_pdf.write(pdf_bytes)29   pdf_bytes.seek(0)30   img = Image(file=pdf_bytes, resolution=res)31   img.format =  png 32   img.compression_quality = 9033   img.background_color = Color("white")34   img_path =  %s%d.png  % (filename[:filename.rindex( . )], idx)35   img.save(filename=img_path)36   img.destroy()# -*- coding: utf-8 -*-
 2
 3import io
 4from wand.image import Image
 5from wand.color import Color
 6from PyPDF2 import PdfFileReader, PdfFileWriter
 7memo = {}
 8'''
 9需要注意的是一般PDF文件较大，如果一次性转换
10整个PDF文件需要小心内存溢出的问题，我们这里
11将第一次载入的整个PDF文件保存到内存，避免每
12次读取的时候都重新载入。
13'''
14def getPdfReader(filename):
15   reader = memo.get(filename, None)
16   if reader is None:
17       reader = PdfFileReader(filename, strict=False)
18       memo[filename] = reader
19   return reader
20
21def _run_convert(filename, page, res=120):
22   idx = page + 1
23   pdfile = getPdfReader(filename)
24   pageObj = pdfile.getPage(page)
25   dst_pdf = PdfFileWriter()
26   dst_pdf.addPage(pageObj)
27   pdf_bytes = io.BytesIO()
28   dst_pdf.write(pdf_bytes)
29   pdf_bytes.seek(0)
30   img = Image(file=pdf_bytes, resolution=res)
31   img.format =  png 
32   img.compression_quality = 90
33   img.background_color = Color("white")
34   img_path =  %s%d.png  % (filename[:filename.rindex( . )], idx)
35   img.save(filename=img_path)
36   img.destroy()