Python编程让繁琐的工作自动化（5）-处理PDF文档

最新推荐文章于 2023-04-03 15:45:54 发布

阿苏尔

最新推荐文章于 2023-04-03 15:45:54 发布

阅读量705

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/u010132497/article/details/85220706

版权

python 专栏收录该内容

36 篇文章 1 订阅

订阅专栏

有问题的 PDF 格式

虽然 PDF 文件对文本布局非常好，让人们很容易打印并阅读，但软件要将
它们解析为纯文本却并不容易。因此，PyPDF2 从 PDF 提取文本时可能会出错，
甚至根本不能打开某些 PDF。遗憾的是，你对此没有什么办法，PyPDF2 可能就
是不能处理某些 PDF 文件。话虽这样说，我至今没有发现不能用 PyPDF2 打开的
PDF 文件。

# 从PDF读取文本
import PyPDF2 
pdfFileObj = open('meetingminutes.pdf', 'rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 
pdfReader.numPages ->19 
# 0是第一页，
pageObj = pdfReader.getPage(0) 
#抽取文本可能并不完美，但可能来说足够了
pageObj.extractText() ->'OOFFFFIICCIIAALL  BBOOAARRDD   MMIINNUUTTEESS   Meeting of March 7, 2015 

#解密PDF
pdfReader = PyPDF2.PdfFileReader(open('encrypted.pdf', 'rb')) 
# isEncrypted 属性表示是否有密码
pdfReader.isEncrypted ->True 
pdfReader.getPage(0) ->会报错，需要解锁密码来做。我个人认为或许可以用程序暴力解锁密码
#传递密码解锁.decrypt()方法只解密了PdfFileReader 对象，而不是实际的 PDF 文件。在程序中止后，硬盘上的文件仍然是加密的。程序下次运行时，仍然需要再次调用 decrypt()。
pdfReader.decrypt('rosebud')->1 
pageObj = pdfReader.getPage(0) 

# 创建PDF，通过使用PdfFileWriter对象，但PyPDF2不能将任意文本写入PDF，仅限于从其他PDF中
# 拷贝页面，旋转页面， 重叠页面和加密文件
#模块不允许直接编辑PDF，必须创建一个新的PDF，然后从已有的文档拷贝内容，在这本书中作者遵循以下方式：
# 1.打开一个或多个源PDF，得到PdfFileReader对象
# 2.创建一个新的PdfFileWriter对象。
# 3.将页面从PdfFileReader对象拷贝到PdfFileWriter对象中
# 4.利用PdfFileWriter对象写入输出的PDF。

#创建一个PdfFileWriter对象，不会创建实际的PDF,要生成实际文件必须调用write方法，且以二进制模式打开。
# 从一个PDF拷贝页面到另一个PDF，可以组合多个PDF
import PyPDF2 
pdf1File = open('meetingminutes.pdf', 'rb') 
pdf2File = open('meetingminutes2.pdf', 'rb') 
pdf1Reader = PyPDF2.PdfFileReader(pdf1File) 
pdf2Reader = PyPDF2.PdfFileReader(pdf2File) 
pdfWriter = PyPDF2.PdfFileWriter() 
 
for pageNum in range(pdf1Reader.numPages): 
    pageObj = pdf1Reader.getPage(pageNum) 
    pdfWriter.addPage(pageObj) 
#PyPDF2不能在PdfFileWriter对象中间插入页面，addPage只能在末尾添加页面 
for pageNum in range(pdf2Reader.numPages): 
    pageObj = pdf2Reader.getPage(pageNum) 
    pdfWriter.addPage(pageObj) 
 
pdfOutputFile = open('combinedminutes.pdf', 'wb') 
pdfWriter.write(pdfOutputFile) 
pdfOutputFile.close() 
pdf1File.close() 
pdf2File.close() 

#旋转页面，使用rotateClockwise和rotateCounterClockwise方法，传入度数90，180，270即可
import PyPDF2 
minutesFile = open('meetingminutes.pdf', 'rb') 
pdfReader = PyPDF2.PdfFileReader(minutesFile) 
page = pdfReader.getPage(0) 
page.rotateClockwise(90) 
pdfWriter = PyPDF2.PdfFileWriter() 
pdfWriter.addPage(page) 
resultPdfFile = open('rotatedPage.pdf', 'wb') 
pdfWriter.write(resultPdfFile) 
resultPdfFile.close() 
minutesFile.close() 

#叠加页面，可以添加公司标志，时间戳以及水印等
import PyPDF2 
minutesFile = open('meetingminutes.pdf', 'rb') 
pdfReader = PyPDF2.PdfFileReader(minutesFile) 
minutesFirstPage = pdfReader.getPage(0) 
pdfWatermarkReader = PyPDF2.PdfFileReader(open('watermark.pdf', 'rb')) 
minutesFirstPage.mergePage(pdfWatermarkReader.getPage(0)) 
pdfWriter = PyPDF2.PdfFileWriter() 
pdfWriter.addPage(minutesFirstPage) 
 
for pageNum in range(1, pdfReader.numPages): 
        pageObj = pdfReader.getPage(pageNum) 
        pdfWriter.addPage(pageObj) 
resultPdfFile = open('watermarkedCover.pdf', 'wb') 
pdfWriter.write(resultPdfFile) 
minutesFile.close() 
resultPdfFile.close() 

#加密PDF
import PyPDF2 
pdfFile = open('meetingminutes.pdf', 'rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFile) 
pdfWriter = PyPDF2.PdfFileWriter() 
for pageNum in range(pdfReader.numPages): 
        pdfWriter.addPage(pdfReader.getPage(pageNum)) 
 
pdfWriter.encrypt('swordfish') 
resultPdf = open('encryptedminutes.pdf', 'wb') 
pdfWriter.write(resultPdf) 
resultPdf.close()

项目：从多个 PDF 中合并选择的页面

假定你有一个很无聊的任务，需要将几十个 PDF 文件合并成一个 PDF 文件。每
一个文件都有一个封面作为第一页，但你不希望合并后的文件中重复出现这些封
面。即使有许多免费的程序可以合并 PDF，很多也只是简单的将文件合并在一起。
让我们来写一个 Python 程序，定制需要合并到 PDF 中的页面。
总的来说，该程序需要完成：

找到当前工作目录中所有 PDF 文件。
按文件名排序，这样就能有序地添加这些 PDF。
除了第一页之外，将每个 PDF 的所有页面写入输出的文件。
从实现的角度来看，代码需要完成下列任务：
调用 os.listdir()，找到当前工作目录中的所有文件，去除掉非 PDF 文件。
调用 Python 的 sort()列表方法，对文件名按字母排序。
为输出的 PDF 文件创建 PdfFileWriter 对象。
循环遍历每个 PDF 文件，为它创建 PdfFileReader 对象。
针对每个 PDF 文件，循环遍历每一页，第一页除外。
将页面添加到输出的 PDF。
将输出的 PDF 写入一个文件，名为 allminutes.pdf。
针对这个项目，打开一个新的文件编辑器窗口，将它保存为 combinePdfs.py。


# 第 1 步：找到所有 PDF 文件 
#! python3 
# combinePdfs.py - Combines all the PDFs in the current working directory into 
# into a single PDF. 
 
import PyPDF2, os 
 
# Get all the PDF filenames. 
pdfFiles = [] 
for filename in os.listdir('.'): 
    if filename.endswith('.pdf'): 
        pdfFiles.append(filename) 
pdfFiles.sort(key=str.lower) 
pdfWriter = PyPDF2.PdfFileWriter() 
 
# 第2步：打开每个PDF文件
# Loop through all the PDF files. 
for filename in pdfFiles: 
    pdfFileObj = open(filename, 'rb') 
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 
    # 第3步：添加每一页
    # Loop through all the pages (except the first) and add them. 
    for pageNum in range(1, pdfReader.numPages): 
        pageObj = pdfReader.getPage(pageNum) 
        pdfWriter.addPage(pageObj) 
# 第4步：保存结果        
# Save the resulting PDF to a file. 
pdfOutput = open('allminutes.pdf', 'wb') 
pdfWriter.write(pdfOutput) 
pdfOutput.close()