最近看到一篇介绍Python中pyPDF模块的文章,详细介绍了使用pyPDF模块获取PDF文件信息,合并拆分PDF文件等功能。很方便,在此搬运分享以下:
全文介绍了以下几方面的功能
提取文件信息
旋转页面
合并文件
拆分文件
添加水印
加密文件
这里我主要尝试了前几个功能的实现,添加水印与加密文件不是很用得上就不再详细尝试了。
pyPdf,PyPDF2以及PyPDF4的发展历程
最初的pyPdf模块发布与2005年,但并不支持Python3。PyPDF2目前也基本停用,最新版本的PyPDF4支持PyPDF2的大多数功能,但也有部分功能不兼容。原文中使用的是PyPDF2模块,此处我改用最新的PyPDF4进行尝试。
安装
如果你已经安装了Anaconda,可以使用pip或者conda直接安装:
pip install PyPDF4
功能实现
提取PDF文件信息
我们可以通过PdfFileReader来实现对以下信息的提取:
作者
创建者
生产商
主题
题目
页数
代码如下:
from PyPDF4 import PdfFileReader,PdfFileWriter
def extract_information(pdf_path):
with open(pdf_path,'rb') as f:
pdf=PdfFileReader(f)
information=pdf.getDocumentInfo()
number_of_pages=pdf.getNumPage