Python提取PDF中表格数据

最新推荐文章于 2024-08-14 21:16:44 发布

冥更

最新推荐文章于 2024-08-14 21:16:44 发布

阅读量4.2k

点赞数 4

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24852439/article/details/102473859

版权

本文介绍了如何使用Camelot Python库从PDF文件中轻松提取表格数据。在遇到安装和使用过程中的问题时，如依赖库ghostscript的安装及配置，以及针对含有三线表的PDF页面的处理。通过示例代码展示了如何指定页面读取表格，并解释了Camelot可能无法识别某些特定格式的表格。

摘要由CSDN通过智能技术生成

从 PDF 表格中获取数据是一项痛苦的工作。不久前，一位开发者提供了一个名为 Camelot 的工具，使用三行代码就能从 PDF 文件中提取表格数据。

项目地址：https://github.com/camelot-dev/camelot

项目作者提供了三种安装方法。首先，你可以使用 Conda 进行安装，这是最简单的。

conda install -c conda-forge camelot-py

最流行的安装方法是使用 pip 安装。

pip install camelot-py[cv]

还可以从项目中克隆代码，并使用源码安装。

git clone https://www.github.com/camelot-dev/camelot
cd camelot
pip install ".[cv]"

我选择用pip安装包，装好包后就来读取PDF文件了

import camelot
tables = camelot.read_pdf('1.pdf')

然后就报错了。。

最低0.47元/天解锁文章

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。