2024年Python最全如何使用Python玩转PDF各种骚操作？(1)

最新推荐文章于 2024-08-04 09:30:00 发布

2401_84558983

最新推荐文章于 2024-08-04 09:30:00 发布

阅读量533

点赞数 22

分类专栏：程序员文章标签： python pdf 前端

本文链接：https://blog.csdn.net/2401_84558983/article/details/138361793

版权

程序员专栏收录该内容

194 篇文章 2 订阅

订阅专栏

下面看一下如何使用PyPDF2旋转文章的一些页面：

from PyPDF2 import PdfFileReader, PdfFileWriter

def rotate_pages(pdf_path):

pdf_writer = PdfFileWriter()

pdf_reader = PdfFileReader(path)

顺时针旋转90度

page_1 = pdf_reader.getPage(0).rotateClockwise(90)

pdf_writer.addPage(page_1)

逆时针旋转90度

page_2 = pdf_reader.getPage(1).rotateCounterClockwise(90)

pdf_writer.addPage(page_2)

在正常方向上添加一页

pdf_writer.addPage(pdf_reader.getPage(2))

with open(‘rotate_pages.pdf’, ‘wb’) as fh:

pdf_writer.write(fh)

if name == ‘main’:

path = ‘新路径.pdf’

rotate_pages(path)

上面除了pdfileReader之外，还导入了pdfileWriter，因为我们需要编写一个新的pdf。rotate_pages()获取要修改的PDF的路径。在这个函数中，需要创建一个可以命名为pdf-writer的writer对象和一个名为pdf-reader的reader对象。

接下来，可以使用.get page()获取所需的页面。上面开始输入了第0页，也就是第一页，调用page对象的.rotateClockwise()顺时针旋转方法并输入90。然后同样地，对于第二页，调用.rotateCounterLockwise()逆时针旋转并输入90。

每次调用Rotation旋转方法后，都会调用.addPage()，这将向writer对象添加页面的旋转版本。最后一页是第3页，没有对其进行任何旋转。最后，使用.write()把所有新页写入新的PDF。

如何合并PDF？

在许多情况下，我们希望将两个或多个PDF合并到一个PDF中。例如，现在可能有一个标准的封面，需要转到许多类型的报告中。这时候就可以使用python来帮助完成这类工作。

下面是实现的代码，完成PDF合并的操作：

from PyPDF2 import PdfFileReader, PdfFileWriter

def merge_pdfs(paths, output):

pdf_writer = PdfFileWriter()

for path in paths:

pdf_reader = PdfFileReader(path)

for page in range(pdf_reader.getNumPages()):

将每页添加到writer对象

pdf_writer.addPage(pdf_reader.getPage(page))

写入合并的pdf

with open(output, ‘wb’) as out:

pdf_writer.write(out)

if name == ‘main’:

paths = [‘document1.pdf’, ‘document2.pdf’]

merge_pdfs(paths, output=‘merged.pdf’)

假如有一个要合并到一起的pdf列表时，可以直接使用merge_pdf函数完成。此函数采用了输入路径和输出路径作为参数。

首先遍历输入的paths，并为每个输入创建一个PDF阅读对象。然后遍历PDF文件中的所有页面，并使用.addpage()将这些页面写入writer对象。当完成对列表中所有PDF的所有页面的写入后，将在末尾写入新的结果中。

如果不想合并每个PDF的所有页面，可以通过添加一系列要添加的页面来稍微增强这个脚本。挑战一点的话，也可以使用Python的argparse模块为这个函数创建一个命令行接口。

如何拆分PDF?

有时可能需要将PDF拆分为多个PDF，对于包含大量扫描内容的PDF来说尤其重要。以下是如何使用PyPDF2将PDF拆分为多个文件：

from PyPDF2 import PdfFileReader, PdfFileWriter

def split(path, name_of_split):

pdf = PdfFileReader(path)

for page in range(pdf.getNumPages()):

pdf_writer = PdfFileWriter()

pdf_writer.addPage(pdf.getPage(page))

output = f’{name_of_split}{page}.pdf’

with open(output, ‘wb’) as output_pdf:

pdf_writer.write(output_pdf)

if name == ‘main’:

path = ‘xxx.pdf’

split(path, ‘jupyter_page’)

这个函数中再次创建了PDF的reaer对象，并对其所读取的页面进行遍历。对于PDF中的每个页面，创建一个新的PDF的writer实例并向其添加单个页面。然后，将该页面写入一个唯一命名的文件。脚本运行完毕后，就可以将原始PDF的每个页面拆分为单独的PDF。

如何添加水印？

水印是纸质或者电子文档上的图像或图案，一些水印只能在特殊照明条件下才能看到。水印的重要性在于它可以保护你的知识产权，例如图像或PDF。

我们可以使用Python和PyPDF2为文档添加水印，而且是拥有仅包含水印图像或文本的PDF。下面是向PDF添加水印方法：

from PyPDF2 import PdfFileWriter, PdfFileReader

def create_watermark(input_pdf, output, watermark):

watermark_obj = PdfFileReader(watermark)

watermark_page = watermark_obj.getPage(0)

pdf_reader = PdfFileReader(input_pdf)

pdf_writer = PdfFileWriter()

给所有页面添加水印

for page in range(pdf_reader.getNumPages()):

page = pdf_reader.getPage(page)

page.mergePage(watermark_page)

pdf_writer.addPage(page)

with open(output, ‘wb’) as out:

pdf_writer.write(out)

if name == ‘main’:

create_watermark(

input_pdf=‘Jupyter_Notebook_An_Introduction.pdf’,

output=‘watermarked_notebook.pdf’,

watermark=‘watermark.pdf’)

上面create_watermark有三个参数：

input_pdf：要加水印的PDF文件路径
output：要保存PDF的水印版本的路径
watermark：包含水印图像或文本的PDF

在代码中，打开水印PDF并从文档中抓取第一页，因为这是水印应该驻留的位置。然后使用input_pdf和通用pdf_writer对象创建PDF的writer对象，以写出带水印的PDF。

下一步是遍历input_pdf中的页面，然后调用.mergePage()并以用上面读取的水印对象watermark_page为参数，这样会将watermark_page覆盖在当前页面的顶部，然后再将新合并的页面添加到pdf_writer对象中。遍历完成后，最后将新加水印的PDF写入磁盘。

如何加密PDF？

PyPDF2目前仅支持将用户密码和所有者密码添加到预先存在的PDF。在PDF版本中，所有者密码会提供PDF的管理员权限，并允许设置文档的权限，而用户密码只允许打开文档。

实际上，PyPDF2是不允许设置文档的任何权限的，即使它允许设置所有者密码的情况下。但无论如何，这是可以加密的方式，也将固有地加密PDF：

from PyPDF2 import PdfFileWriter, PdfFileReader

def add_encryption(input_pdf, output_pdf, password):

pdf_writer = PdfFileWriter()

pdf_reader = PdfFileReader(input_pdf)

for page in range(pdf_reader.getNumPages()):

pdf_writer.addPage(pdf_reader.getPage(page))

pdf_writer.encrypt(user_pwd=password, owner_pwd=None,

use_128bit=True)

with open(output_pdf, ‘wb’) as fh:

pdf_writer.write(fh)

if name == ‘main’:

add_encryption(input_pdf=‘reportlab-sample.pdf’,

output_pdf=‘reportlab-encrypted.pdf’,

password=‘twofish’)
add_encryption以输入输出PDF路径和要添加到PDF的密码为参数。由于需要加密整个输入PDF，因此需要遍历其所有页面并将其添加到writer编写器。最后一步是调用.encrypt()，以用户密码，所有者密码以及是否应该添加128位加密为参数。默认情况下，要启用128位加密。如果将其设置为False，则将应用40位加密。

在这里插入图片描述

感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：

①　2000多本Python电子书（主流和经典的书籍应该都有了）

②　Python标准库资料（最全中文版）

③　项目源码（四五十个有趣且经典的练手项目及源码）

④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84558983

关注

22
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
2024年Python最全如何使用Python玩转PDF各种骚操作？(1)

下面看一下如何使用PyPDF2旋转文章的一些页面：from PyPDF2 import PdfFileReader, PdfFileWriterdef rotate_pages(pdf_path):pdf_writer = PdfFileWriter()pdf_reader = PdfFileReader(path)page_1 = pdf_reader.getPage(0).rotateClockwise(90)pdf_writer.addPage(page_1)page_2 = pdf_reader.g
复制链接

扫一扫