python不可以处理pdf文件_Python处理PDF文件-简译与总结

本文介绍了使用Python的PyPDF4模块处理PDF文件,包括提取信息、旋转页面、合并文件和拆分文件。通过示例代码展示了如何实现这些功能,并提到了在拆分文件时可能出现的问题及其解决方案。
摘要由CSDN通过智能技术生成

最近看到一篇介绍Python中pyPDF模块的文章,详细介绍了使用pyPDF模块获取PDF文件信息,合并拆分PDF文件等功能。很方便,在此搬运分享以下:

全文介绍了以下几方面的功能

提取文件信息

旋转页面

合并文件

拆分文件

添加水印

加密文件

这里我主要尝试了前几个功能的实现,添加水印与加密文件不是很用得上就不再详细尝试了。

pyPdf,PyPDF2以及PyPDF4的发展历程

最初的pyPdf模块发布与2005年,但并不支持Python3。PyPDF2目前也基本停用,最新版本的PyPDF4支持PyPDF2的大多数功能,但也有部分功能不兼容。原文中使用的是PyPDF2模块,此处我改用最新的PyPDF4进行尝试。

安装

如果你已经安装了Anaconda,可以使用pip或者conda直接安装:

pip install PyPDF4

功能实现

提取PDF文件信息

我们可以通过PdfFileReader来实现对以下信息的提取:

作者

创建者

生产商

主题

题目

页数

代码如下:

from PyPDF4 import PdfFileReader,PdfFileWriter

def extract_information(pdf_path):

with open(pdf_path,'rb') as f:

pdf=PdfFileReader(f)

information=pdf.getDocumentInfo()

number_of_pages=pdf.getNumPage

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值