PDF信息提取

本文介绍了如何使用PDFMiner Python库从PDF文件中提取信息,详细讲解了PDFMiner的环境配置、主要类及其关系,并给出了PDF文件提取的基本步骤和布局分析的方法。
摘要由CSDN通过智能技术生成

PDF文件读取

1.PDF概述

PDF概述
可移植文档格式(PDF)是一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。每个PDF文件包含固定布局的平面文档的完整描述,包括文本、字形、图形及其他需要显示的信息。PDF文件格式在1990年代早期开发,用于分享包括文本格式和内置视频的文档,能跨平台操作,即使计算机平台完全不同,收件者亦无需适配相关或合用的应用软件接口。
解析PDF文件的python库主要有两个,PDFMiner库和pyPDF库,在这里主要讲解PDFMiner库来提取PDF文件内容。

2.环境配置

PDFMiner
PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同,它完全专注于获取和分析文本数据。允许人们获取页面中文本的确切位置,以及字体或线条等其他信息。PDFMiner包括一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器,可用于除文本分析之外的其他目的。
适用于配合StringIO转出PDF文件中的文字类信息,对于图像的提取较弱,目前只支持JPEG图像。

pyPDF
pyPDF一样也是是一种从PDF文档中提取信息的工具。
PyPDF是一个纯python PDF库,能够分割,合并,裁剪和转换PDF文件的页面。它还可以向PDF文件添加自定义数据,查看选项和密码。它可以从PDF中检索文本和元数据,以及将整个文件合并在一起。
当前pyPDF库已经停止更新,最新的库是pyPDF2库

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值