python读取pdf文档书签 bookmark_用Python为PDF文件批量添加书签

这篇博客介绍了如何使用Python的PyPDF2库为PDF文件批量添加书签,以便于阅读大部头的PDF书籍。作者首先展示了如何添加一个简单的书签,然后创建了一个名为`MyPDFHandler`的类,该类可以处理PDF文件并添加书签。通过读取包含书签信息的txt文件,可以批量为PDF添加书签,提高了阅读效率。
摘要由CSDN通过智能技术生成

平时看一些大部头的技术书籍,大多数都是PDF版的,而且有一些书籍是影印扫描版的,几百上千页的书,没有任何书签,想要找到一个章节的位置非常费劲。那么就想,能不能搞一个工具,来自动地为这些大部头的PDF书籍添加书签便于自己阅读呢?下面就是这样一个工具的开发过程。

为PDF文件添加一个最简单的书签

学习使用一个技术,我们都从最简单的开始入手。比如我现在想为一个名为book.pdf的PDF文件添加一个Hello World书签,该怎么做呢?show code:

# coding:utf-8

# 往pdf文件中添加书签

from PyPDF2 import PdfFileReader as reader,PdfFileWriter as writer

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

def main():

# 读取PDF文件,创建PdfFileReader对象

book = reader('./book.pdf')

# 创建PdfFileWriter对象,并用拷贝reader对象进行初始化

pdf = writer()

pdf.cloneDocumentFromReader(book)

# 添加书签

# 注意:页数是从0开始的,中文要用unicode字符串,否则会出现乱码

# 如果这里的页码超过文档的最大页数,会报IndexError异常

pdf.addBookmark(u'Hello World! 你好,世界!',2)

# 保存修改后的PDF文件内容到文件中

# 注意:这里必须用二进制的'wb'模式来写文件,否则写到文件中的内容都为乱码

with open('./book-with-bookmark.pdf','wb') as fout:

pdf.write(fout)

if __name__ == '__main__':

main()

运行上述代码,发现当前目录下生成了一个名为book-with-bookmark.pdf的文件,打开这个文件,看到成功添加了一个书签:

点击这个书签,会自动跳转到第3页。

PDF处理工具类

下面先编写一个功能更为丰富的PDF处理工具类,代码如下:

# coding:utf-8

# 封装的PDF文档处理工具

from PyPDF2 import PdfFileReader as reader,PdfFileWriter as writer

import os

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

class PDFHandleMode(object):

'''

处理PDF文件的模式

'''

# 保留源PDF文件的所有内容和信息,在此基础上修改

COPY = 'copy'

# 仅保留源PDF文件的页面内容,在此基础上修改

NEWLY = 'newly'

class MyPDFHandler(object):

'''

封装的PDF文件处理类

'''

def __init__(self,pdf_file_path,mode = PDFHandleMode.COPY):

&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值