用Python的几行代码轻松提取 PDF 指定内容生成新文件

会AIGC的小孩

已于 2024-01-09 11:41:54 修改

阅读量1.5k

点赞数 2

文章标签： python pdf 数据库服务器开发语言机器学习

于 2023-09-16 11:30:43 首次发布

本文链接：https://blog.csdn.net/mate1357/article/details/132916484

版权

很多时候，我们并不会预知希望提取的页号，而是希望将包含指定内容的页面提取合并为新PDF，本文就以两个真实需求为例进行讲解。

01 需求描述

数据是一份有286页的上市公司公开年报PDF，大致如下
在这里插入图片描述

现在需要利用 Python 完成以下两个需求

“
需求一：提取所有包含战略二字的页面并合并新PDF

需求二：提取所有包含图片的页面，并分别保存为 PDF 文件

”

02 前置知识和逻辑梳理

2.1 PyPDF2 模块实现合并

PyPDF2 导入模块的代码常常是：

from PyPDF2 import PdfFileReader, PdfFileWriter

这里导入了两个方法：

PdfFileReader 可以理解为读取器

PdfFileWriter 可以理解为写入器

利用 PyPDF2 实现合并运用的一下逻辑：

读取器将所有pdf读取一遍

读取器将读取的内容交给写入器

写入器统一输出到一个新pdf
隐含知识点：读取器只能将读取的内容一页一页交给写入器

2.2 获取与添加页面

之前我们的推文中提到这两个代码，下面列出作为复习：

.getPage 获取特定页
.addPage 添加特定页

2.3 图片和文字的处理

要实现本文的需求还要做到很重要的一个判断：确定页面中有无包含的文字或图片

判断是否包含特定的文字比较简单，遍历每一页的时候都将包含的文本抽提出，做字符串层面的判断即可，代码思路：

利用 pdfplumber 打开PDF 文件

获取指定的页，或者遍历每一页

利用 .extract_text() 方法提取当前页的文字

判断 “战略” 是否在提取的文字中

判断是否包含图片，思路和上面是类似的，但方法不同。图片考虑用正则的方法识别，用 fitz 和 re 配合，具体见下文代码

03代码实现

3.1 需求一的实现

首先来完成需求一的任务，导入需要用到的库：读取写入PDF文件的 PyPDF2 以及抽提文本的 pdfplumber

from PyPDF2 import PdfFileReader, PdfFileWriter
import pdfplumber

指定文件所在的路径，同时初始化写入器，将文件交给读取器：

path = r'C:\xxxxxx'
pdf_writer = PdfFileWriter()
pdf_reader = PdfFileReader(path + r'\公司年报.PDF')

以上下文管理器形式通过 pdfplumber 打开文件，同时用 .getNumPages 获取读取器的最大页利于遍历每一页来抽提文字：

with pdfplumber.open(path + r'\公司年报.PDF') as pdf:
    for i in range(pdf_reader.getNumPages()):
        page = pdf.pages[i]
        print(page.extract_text())

我们抽提文字的目的

最低0.47元/天解锁文章