python pdf-有没有好一点的读取 PDF 的 Python 包？

最新推荐文章于 2024-05-09 14:02:04 发布

weixin_37988176

最新推荐文章于 2024-05-09 14:02:04 发布

阅读量701

点赞数

专注Python、AI、大数据 @七步编程

PDF（Portable Document Format），中文名称便携文档格式是我们经常会接触到的一种文件格式，文献、文档...很多都是PDF格式。它以格式稳定的优势，使得我们在打印、分享、传输过程中能够最优的保持原有色彩和格式。 />

例如，在文档的分割、合并、剪切、转换、编辑等方面PDF就有些捉襟见肘了。

Adobe Reader、福昕阅读器、熊猫PDF...经常用到的PDF工具只能用于文档阅读，但是免费版都不可以用于文档编辑。虽然，网页版PDF工具，例如SmallPDF、I love PDF可以用于PDF的编辑，但是对于文档大小也有限制。

下面，我就来介绍2款Python工具包，让PDF编辑、分割、合并、读取都不再是困扰人的问题！

PyPDF2

PyPDF2是一个第三方的python PDF库，它能够对PDF文件进行分割、合并、裁剪和转换页面。

另外，它还可以对PDF文件添加自定义数据、水印、密码，也可以从PDF文件中检索出文本和元数据。

安装

使用pip直接安装：

$ pip install PyPDF2

下面就来演示几项PDF编辑功能，并且会逐行解释代码的含义。

删除PDF页

先给出实现代码，

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter() // 1

input1 = PdfFileReader(open("example.pdf", "rb")) // 2

def delete_pdf(index):

pages = input1.getNumPages() // 3

for i in range(pages):

if i+1 in index:

continue

output.addPage(input1.getPage(i)) // 4

outputStream = open("PyPDF2-output.pdf", "wb")

output.write(outputStream) // 5

delete_pdf([2,3,4])

下面来解释一下代码中的几个关键点：声明一个用于输出PDF的实例；

读取本地PDF文件；

获取PDF文档的页数；

读取PDF的第i页，添加到输出output实例中；

把编辑后的文档保存到本地；

合并PDF

已经实现了删除PDF页，接下来就看一下如何把另外一个PDF中的页面合并到当前PDF中。

方法1：

可以沿着前面删除PDF页的方式进行拓展一下，对PDF进行合并。

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter()

input1 = PdfFileReader(open("example.pdf", "rb"))

input2 = PdfFileReader(open("simple2.pdf", "rb")) // 1

def merge_pdf(add_index, origin_index):

pages = input1.getNumPages()

k = 0

for i in range(pages):

if i+1 in add_index:

output.addPage(input2.getPage(origin_index[k])) // 2

pages += 1

k += 1

output.addPage(input1.getPage(i))

outputStream = open("PyPDF2-output.pdf", "wb")

output.write(outputStream)

merge_pdf([2,3,4], [0, 0, 0])读取需要合并的源文件；

遍历到指定页，合并源PDF的页面；

方法2：

除了方法1，还有另外一种方法可以合并PDF：

from PyPDF2 import PdfFileMerger // 1

merger = PdfFileMerger()

input1 = open("document1.pdf", "rb") // 2

input2 = open("document2.pdf", "rb")

input3 = open("document3.pdf", "rb")

merger.append(fileobj = input1, pages = (0,3)) // 3

merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4

merger.append(input3) // 5

output = open("document-output.pdf", "wb")

merger.write(output)导入PyPDF2合并模块PdfFileMerger;

读取需要处理和合并的PDF文档；

从第一个PDF文档中取出需要合并的前3页；

把第二个PDF文档的第一页插入到文档中；

把第三个PDF文档附到输出文档末尾；

除了上述介绍的2项主要功能，PyPDF2也有一些其他小功能：

旋转

input1.getPage(1).rotateClockwise(90)

使得页面1旋转90度。

添加水印

page = input1.getPage(3)

watermark = PdfFileReader(open("watermark.pdf", "rb"))

page.mergePage(watermark.getPage(0))

其中，水印存储在另外一个PDF文档watermark.pdf中。

加密

password = "secret"

output.encrypt(password)

首先给一个secret密码，然后使用encrypt对输出文档进行加密。

pdfminer

前面介绍的PyPDF2主要擅长于PDF页面级编辑，而对于文本和源数据级别编辑能力较弱。

所以，这里就来介绍另外一款Python库来弥补它的不足。

PDFMiner是一个PDF文档的文本提取工具，它具有如下特性：能够准确获取文本的位置和布局信息；

可以将PDF转换为HTML/XML等格式；

可以提取目录；

可以提取标签内容；

支持各种字体类型（Type1、TrueType、Type3和CID）;

支持中、日、韩语言和垂直书写文本;

安装

$ pip install pdfminer

PDF转TxT

pdfminer在GitHub的托管项目中，在目录tools下给出了一些实用的工具集，例如，PDF转HTML、PDF转HTML、PDF转TXT。我们可以直接通过使用下面命令提出PDF文档中的文本信息。

$ pdf2txt.py samples/simple1.pdf

总结

通过上述2款Python库，就可以实现从页面到文本元数据的编辑，本文只是简单的介绍了每项的基本用法。关于详细的用法和函数列表，可以阅读官方文档，或者阅读GitHub上项目源码进行了解。此外，可以在这些基本的用法基础上进行发散思维，发掘更多有价值的应用场景，例如，提出文本数据之后调用翻译API进行文献翻译。也可以，对软件进行封装，开发成一款通用的PDF编辑工具。https://zhuanlan.zhihu.com/p/158028409zhuanlan.zhihu.com

推荐阅读

weixin_37988176

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python pdf-有没有好一点的读取 PDF 的 Python 包？

专注Python、AI、大数据 @七步编程PDF（Portable Document Format），中文名称便携文档格式是我们经常会接触到的一种文件格式，文献、文档...很多都是PDF格式。它以格式稳定的优势，使得我们在打印、分享、传输过程中能够最优的保持原有色彩和格式。例如，在文档的分割、合并、剪切、转换、编辑等方面PDF就有些捉襟见肘了。Adobe Reader、福昕阅读器、熊猫PDF.....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。