用python解析pdf中的文本与表格【pdfplumber的安装与使用】

本文介绍了如何使用python的pdfplumber库来解析PDF文档中的文本和表格。首先,详细阐述了在Win10+python3.6环境下安装pdfplumber及其依赖,包括遇到的问题和解决方法。接着,提到了pdfplumber库的基本用法,特别是用于提取PDF页面上的文本和表格。最后,提到该库具备图形展示功能,通过示例jupyter notebook展示了更多高级用法。
摘要由CSDN通过智能技术生成

我们接触到的很多文档资料都是以pdf格式存在的,比如:论文,技术文档,标准文件,书籍等。pdf格式使得用机器从中提取信息格外困难。

为了解决这个问题,我找到了几种解决方案,最后选择了python上的pdfplumber库,安装和使用都相对比较方便,效果也还不错,所以下面介绍这个库的安装与使用。

安装

我的电脑配置环境: Win10+python3.6
和许多库一样,其基本安装只需要pip就可以了。

pip install pdfplumber

不过本库还提供了图形Debug功能,可以获得PDF页面的截图,并且用方框框起识别到的文字或表格,帮助判断PDF的识别情况,并且进行配置的调整。【具体例子在后面附上。】

要使用这个功能,还需要安装ImageMagick (特别注意,是6.X版本而不是最新的7.X版本。下载地址如下:https://legacy.imagemagick.org/script/binary-releases.php#windows

按照官网的指示,理论上安装了这个就可以了,不过,我在使用to_image函数输出图片时,遇到了DelegateException。后来发现,还需要安装另一个软件才能够解决问题。
GhostScript:

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值