如何从Python中提取PDF文档信息

最新推荐文章于 2024-10-08 12:22:43 发布

lamehd

最新推荐文章于 2024-10-08 12:22:43 发布

阅读量1.5k

点赞数

文章标签：程序员编程开发学习 python

本文链接：https://blog.csdn.net/lamehd/article/details/101198558

版权

Portable Document Format（可移植文档格式），或者PDF是一种文件格式，可以用于跨操作系统的呈现和文档交换。尽管PDF最初是由Adobe发明的，但它现在是由国际标准化组织（ISO）维护的开放标准。你可以通过使用PyPDF2包在Python中处理已先存在的PDF。

PyPDF2是一个纯Python包，可用于许多不同类型的PDF操作。

如何从Python中提取PDF文档信息

我们可以使用PyPDF2从PDF中提取元数据和一些文本，尤其是当在预先存在的PDF文件上执行某些类型的自动化时是非常有用的。

以下是当前可以提取的数据类型：

AuthorCreatorProducerSubjectTitleNumber of page

可以在自己的电脑上随便找一个PDF文件进行尝试操作。下面是使用该PDF编写一些代码，并了解如何访问这些属性：

如何从Python中提取PDF文档信息

首先从PyPDF2包导入PdfFileReader。PdfFileReader是一个具有多种与PDF文件交互的方法的类。在此示例中，我们调用了.getDocumentInfo()，它将返回DocumentInformation的实例,包含了我们感兴趣的大部分信息。我们还可以在reader对象上调用.getNumPages()，让它返回文档中的页数。

information这个变量具有多个实例属性，可以使用这些属性从文档中获取所需的其余元数据。我们可以打印出该信息并将其返回以备将来使用。我是一名python开发工程师，从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习,
面试真题，面试真题，面试真题等。想要这些资料的可以进群：688244617

虽然PyPDF2具有.extractText()，可以在其页面对象上使用提取文本（本例中未显示），但它的效果不是很好。有些PDF会返回文本，有些会返回空字符串。如果要从PDF中提取文本，建议应该看一下PDFMiner项目。PDFMiner更加强大，专门用于从PDF中提取文本。

觉得文章还可以的话不妨收藏起来慢慢看，有任何意见或者看法欢迎大家评论！