今天我们再次回到PDF,详细讲解如何使用Python从PDF提取指定的信息
。我们将以一份年度报告PDF为例进行介绍,内含大量文字、表格、图片
,具体如下
模块安装
首先需要安装两个模块,第一个是pdfplumber
,在命令行使用pip安装即可?
pip install pdfplumber
第二个是fitz
, 它是pymupdf
中的一个模块,同样可以使用pip轻松安装
pip install pymupdf
文字信息提取
使用Python提取PDF中文字代码思路如下
- 利用
pdfplumber
打开一个 PDF 文件 - 获取指定的页,或者遍历每一页
- 利用
.extract_text()
方法提取当前页的文字