python读取pdf文件 pdfplumber_Python教程：pdfplumber提取pdf中的表格数据

最新推荐文章于 2024-07-11 13:58:40 发布

weixin_39547392

最新推荐文章于 2024-07-11 13:58:40 发布

阅读量1.1k

点赞数 1

文章标签： python读取pdf文件 pdfplumber

本文介绍了如何使用Python的pdfplumber库来读取和提取PDF文件中的表格数据。通过实例展示了.extract_tables()和.extract_table()两个函数的区别，前者返回所有表格的嵌套列表，后者返回单一表格的独立列表。

摘要由CSDN通过智能技术生成

之前讲过的pdfplumber模块，可以用来提取pdf中的表格数据。今天小编就为大家带来实例讲解。

作为一个强大的pdf文件解析工具，pdfplumber库可迅速将pdf文档转换为易于处理的txt文档，并输出pdf文档的字符、页面、页码等信息，还可进行页面可视化操作。使用pdfplumber库前需先安装，即在cmd命令行中输入：pip install pdfplumber

pdfplumber库提供了两种pdf表格提取函数，分别为.extract_tables( )及.extract_table( )，两种函数提取结果存在差异。为进行演示，我们网站上下载了一份短期融资券主体信用评级报告，为pdf格式。任意选取某一表格，其界面如下：

（1）.extract_tables( )

可输出页面中所有表格，并返回一个嵌套列表，其结构层次为table→row→cell。此时，页面上的整个表格被放入一个大列表中，原表格中的各行组成该大列表中的各个子列表。若需输出单个外层列表元素，得到的便是由原表格同一行元素构成的列表。例如，我们执行如下程序：import pdfplumber

with pdfplumber.open(r'F:python财务报表主体评级报告.pdf') as pdf:

page = pdf.pages[45] #设置操作页面

for row inpage.extract_tables() :

print(row)

print(r

最低0.47元/天解锁文章

weixin_39547392

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。