使用Python自动遍历并删除扫描PDF中的空白页

本文介绍了如何使用Python和PyPDF2库来自动检测并删除扫描PDF中的空白页。通过对比有内容页和空白页的内部结构,找到区分它们的关键特征,并实现遍历PDF文件,将非空白页写入新PDF,从而高效地处理大量文档。
摘要由CSDN通过智能技术生成

对于经常看扫描PDF资料的人来说,经常会碰到如下问题:
PDF缩略图
因为一些格式转换的原因,一些空白页时不时的出现,而且规律不定,一会是偶数页码一会是奇数页码,逐个选中删除的话,对于几百页的文档,非常费时。

百度搜索删除PDF空白页,得到的是一个要收费的工具,有了Python就可以利用免费开源库轻松解决。

先安装 PyPDF2库,在Powershell 或CMD命令行模式安装PyPDF2
Install PyPDF2

流程:
将空白页和内容页读取出来,看看内部结构有什么不同,以此为依据,遍历整个PDF 文件,标记处有内容的页面,写入到另外一个PDF文件。

该文件中17页为空白页,18页为内容页:

from PyPDF2 import PdfFileReader, PdfFileWriter

path=r"D:\ebook\PDF\test.pdf"

reader = PdfFileReader(open(path, 'rb'))
"""
注意PyPDF2中页码从0开始
"""
blank= reader.getPage(16)
full = reader.getPage(17)

每一个页都是一个字典对象,看第一层没区别

blank.keys()
Out[24]: dict_keys
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值