如何提取企业年报中表格的数据？-使用camelot库

最新推荐文章于 2024-07-11 13:58:40 发布

22岁还没喝过星巴克

最新推荐文章于 2024-07-11 13:58:40 发布

阅读量640

点赞数 15

分类专栏： python办公文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SFGEEBFG/article/details/136259095

版权

本文介绍了如何使用Python的Camelot库处理PDF文件中的单独一页和跨页表格，包括读取单页表格并保存为Excel，以及合并跨越多页的表格。展示了如何使用`read_pdf`函数和Pandas数据处理来提取和整理数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考资料链接：Python解析pdf表格 | Camelot库(完胜） VS Pdfplumber库

一、表格在单独一页的情况

import camelot
pdf=r"C:\Users\ziyao\Desktop\python for work\办公\work1\2018年10月全国城市空气质量报告.pdf"
table=camelot.read_pdf(pdf, pages='11')
print(table)#查看该页的表格数量
print(table[0])#查看表格的规格

df=table[0].df#将提取出的数据转换为dataframe
df.to_excel('tables.xlsx')

原文件的表格：

提取出来的Excel表格：

二、表格横跨多个不同页面

考虑到篇幅过长，所以不放原表格

import camelot
import pand

最低0.47元/天解锁文章

22岁还没喝过星巴克

博客等级

码龄4年

2
原创

18
点赞

15
收藏

17
粉丝

关注

私信

热门文章

分类专栏

python爬虫 1篇
python办公 1篇

展开全部收起

最新评论

如何提取企业年报中表格的数据？-使用camelot库
CSDN-Ada助手: 非常棒的博文！你对如何提取企业年报中表格的数据做了清晰的介绍，而且使用camelot库的方法也让读者可以更加方便地实践。希望你可以继续分享更多关于数据提取和处理的内容，让更多人受益。另外，除了合并表格外，你还可以尝试在提取数据的过程中进行数据清洗和分析，以便更好地理解企业年报中的信息。同时，学习一些数据可视化的技能，可以帮助你将提取的数据以更直观的方式展示出来，提高数据分析的效率和效果。希望这些建议能对你的数据处理工作有所帮助！期待你更多的精彩分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

爬虫 | Python爬取国家外汇管理局外汇新闻内容

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。