使用Python自动遍历并删除扫描PDF中的空白页

JamesXXL

于 2020-02-15 20:32:47 发布

阅读量3k

点赞数 1

本文链接：https://blog.csdn.net/JamesKhoo/article/details/104333978

版权

本文介绍了如何使用Python和PyPDF2库来自动检测并删除扫描PDF中的空白页。通过对比有内容页和空白页的内部结构，找到区分它们的关键特征，并实现遍历PDF文件，将非空白页写入新PDF，从而高效地处理大量文档。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于经常看扫描PDF资料的人来说，经常会碰到如下问题：
PDF缩略图
因为一些格式转换的原因，一些空白页时不时的出现，而且规律不定，一会是偶数页码一会是奇数页码，逐个选中删除的话，对于几百页的文档，非常费时。

百度搜索删除PDF空白页，得到的是一个要收费的工具，有了Python就可以利用免费开源库轻松解决。

先安装 PyPDF2库，在Powershell 或CMD命令行模式安装PyPDF2
Install PyPDF2

流程：
将空白页和内容页读取出来，看看内部结构有什么不同，以此为依据，遍历整个PDF 文件，标记处有内容的页面，写入到另外一个PDF文件。

该文件中17页为空白页，18页为内容页：

from PyPDF2 import PdfFileReader, PdfFileWriter

path=r"D:\ebook\PDF\test.pdf"

reader = PdfFileReader(open(path, 'rb'))
"""
注意PyPDF2中页码从0开始
"""
blank= reader.getPage(16)
full = reader.getPage(17)

每一个页都是一个字典对象，看第一层没区别

blank.keys()
Out[24]: dict_keys

最低0.47元/天解锁文章