平时看一些大部头的技术书籍,大多数都是PDF版的,而且有一些书籍是影印扫描版的,几百上千页的书,没有任何书签,想要找到一个章节的位置非常费劲。那么就想,能不能搞一个工具,来自动地为这些大部头的PDF书籍添加书签便于自己阅读呢?下面就是这样一个工具的开发过程。
为PDF文件添加一个最简单的书签
学习使用一个技术,我们都从最简单的开始入手。比如我现在想为一个名为book.pdf的PDF文件添加一个Hello World书签,该怎么做呢?show code:
# coding:utf-8
# 往pdf文件中添加书签
from PyPDF2 import PdfFileReader as reader,PdfFileWriter as writer
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
def main():
# 读取PDF文件,创建PdfFileReader对象
book = reader('./book.pdf')
# 创建PdfFileWriter对象,并用拷贝reader对象进行初始化
pdf = writer()
pdf.cloneDocumentFromReader(book)
# 添加书签
# 注意:页数是从0开始的,中文要用unicode字符串,否则会出现乱码
# 如果这里的页码超过文档的最大页数,会报IndexError异常
pdf.addBookmark(u'Hello World! 你好,世界!',2)
# 保存修改后的PDF文件内容到文件中
# 注意:这里必须用二进制的'wb'模式来写文件,否则写到文件中的内容都为乱码
with open('./book-with-bookmark.pdf','wb') as fout:
pdf.write(fout)
if __name__ == '__main__':
main()
运行上述代码,发现当前目录下生成了一个名为book-with-bookmark.pdf的文件,打开这个文件,看到成功添加了一个书签:
点击这个书签,会自动跳转到第3页。
PDF处理工具类
下面先编写一个功能更为丰富的PDF处理工具类,代码如下:
# coding:utf-8
# 封装的PDF文档处理工具
from PyPDF2 import PdfFileReader as reader,PdfFileWriter as writer
import os
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
class PDFHandleMode(object):
'''
处理PDF文件的模式
'''
# 保留源PDF文件的所有内容和信息,在此基础上修改
COPY = 'copy'
# 仅保留源PDF文件的页面内容,在此基础上修改
NEWLY = 'newly'
class MyPDFHandler(object):
'''
封装的PDF文件处理类
'''
def __init__(self,pdf_file_path,mode = PDFHandleMode.COPY):
&