![304ea0df105e34c2a8810453d6b41f10.png](https://i-blog.csdnimg.cn/blog_migrate/d252868553626ae8eb58025d4a3f3d10.jpeg)
作者:陈熹
来源:早起Python
大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件,包括合并、拆分、水印、加密等操作。
今天我们再次回到PDF,详细讲解如何使用python从PDF提取指定的信息。我们将以一份年度报告PDF为例进行介绍,内含大量文字、表格、图片,具体如下
![aac09fca68b41eefec936d6dd6149a82.png](https://i-blog.csdnimg.cn/blog_migrate/988f06ba3d3905ac7fa263b7b3d01097.jpeg)
模块安装
首先需要安装两个模块,第一个是pdfplumber,在命令行使用pip安装即可
pip install pdfplumber
第二个是fitz, 它是pymupdf中的一个模块,同样可以使用pip轻松安装
pip install pymupdf
文字信息提取
使用python提取PDF中文字代码思