点击上方“Python全家桶”,“星标”或"置顶"
关键时刻,第一时间送达
导读
大家好,在之前的办公自动化系列文章中我们已经详细介绍了?如何使用Python批量处理PDF文件,包括合并、拆分、水印、加密等操作。
今天我们再次回到PDF,详细讲解如何使用Python从PDF提取指定的信息
。我们将以一份年度报告PDF为例进行介绍,内含大量文字、表格、图片
,具体如下
模块安装
首先需要安装两个模块,第一个是pdfplumber
,在命令行使用pip安装即可?
pip install pdfplumber
第二个是fitz
, 它是pymupdf
中的一个模块,同样可以使用pip轻松安装
pip install pymupdf
文字信息提取
使用Python提取PDF中文字代码思路如下
- 利用
pdfplumber
打开一个 PDF 文件 - 获取指定的页,或者遍历每一页
- 利用
.extract_text()
方法提取当前页的文字</