使用PDFMiner进行PDF文本提取-CSDN博客

本文链接：https://blog.csdn.net/qq_27374315/article/details/86595519

本文介绍了如何使用PDFMiner Python库从PDF文件中提取信息，详细讲解了PDFMiner的环境配置、主要类及其关系，并给出了PDF文件提取的基本步骤和布局分析的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PDF文件读取

1.PDF概述

PDF概述
可移植文档格式（PDF）是一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。每个PDF文件包含固定布局的平面文档的完整描述，包括文本、字形、图形及其他需要显示的信息。PDF文件格式在1990年代早期开发，用于分享包括文本格式和内置视频的文档，能跨平台操作，即使计算机平台完全不同，收件者亦无需适配相关或合用的应用软件接口。
解析PDF文件的python库主要有两个，PDFMiner库和pyPDF库，在这里主要讲解PDFMiner库来提取PDF文件内容。

2.环境配置

PDFMiner
PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同，它完全专注于获取和分析文本数据。允许人们获取页面中文本的确切位置，以及字体或线条等其他信息。PDFMiner包括一个PDF转换器，可以将PDF文件转换为其他文本格式（如HTML）。它具有可扩展的PDF解析器，可用于除文本分析之外的其他目的。
适用于配合StringIO转出PDF文件中的文字类信息，对于图像的提取较弱，目前只支持JPEG图像。

pyPDF
pyPDF一样也是是一种从PDF文档中提取信息的工具。
PyPDF是一个纯python PDF库，能够分割，合并，裁剪和转换PDF文件的页面。它还可以向PDF文件添加自定义数据，查看选项和密码。它可以从PDF中检索文本和元数据，以及将整个文件合并在一起。
当前pyPDF库已经停止更新，最新的库是pyPDF2库