mysql表中pdf文件读取_手把手教学：提取PDF各种表格文本数据（附代码）

最新推荐文章于 2023-12-15 10:54:21 发布

邱某某知了

最新推荐文章于 2023-12-15 10:54:21 发布

阅读量496

点赞数 1

文章标签： mysql表中pdf文件读取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36489344/article/details/113464525

版权

本文介绍了使用PDFPlumber库来提取PDF中的表格和文本数据，包括基本用法、从PDF中提取图形数据、自定义策略解析表格以及处理固定宽度数据。PDFPlumber适用于Python 2.7和3.x版本，适用于电脑生成而非扫描的PDF。通过实例展示了如何利用PDFPlumber进行数据抓取和清理，帮助提升数据处理效率。

摘要由CSDN通过智能技术生成

原标题：手把手教学：提取PDF各种表格文本数据(附代码)

量化投资与机器学习编辑部报道

还在为抓取各种PDF格式的财务、数据报表而烦恼吗？

还在为自己手工操作导致的效率低下而烦恼吗？

还在担心没有趁手的兵器吗？

今天，公众号为大家介绍一款神器：

PDFPlumbe

轻松玩转PDF，痛快抓数据！助你一臂之力！

获取全部代码，见文末

关于PDFPlumbe

PDFPlumb最适合提取电脑生成的PDF，而不是扫描的PDF。它是在pdfminer和pdfmine.six基础上设计的。

适用版本：Python2.7、3.1、3.4、3.5和3.6。

安装PDFPlumbe

pip install pdfplumber

要使用pdfplumber的可视化调试工具，还需要在计算机上安装ImageMagick(https://imagemagick.org/index.php)，说明如下：

http://docs.wand-py.org/en/latest/guide/install.html#install-imagemagick-debian

具体参数、提取流程与可视化我们将以案例进行展示，更详细的内容，请大家在文末下载安装包自行查看。

案例一

importpdfplumber

pdf = pdfplumber.open("../pdfs/ca-warn-report.pdf")

p0 = pdf.pages[0]

im = p0.to_image

im

使用.extract_table获取数据：

table = p0.extract_table

table[:3]

使用pandas将列表呈现为一个DataFrame，并在某些日期内删除多余的空格。

importpandas aspd

df = pd.DataFrame(table[1:], columns=table[0])

forcolumn in["Effective", "Received"]:

df[column] = df[column].str.replace(" ", "")

最低0.47元/天解锁文章

邱某某知了

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
mysql表中pdf文件读取_手把手教学：提取PDF各种表格文本数据（附代码）

原标题：手把手教学：提取PDF各种表格文本数据(附代码)量化投资与机器学习编辑部报道还在为抓取各种PDF格式的财务、数据报表而烦恼吗？还在为自己手工操作导致的效率低下而烦恼吗？还在担心没有趁手的兵器吗？今天，公众号为大家介绍一款神器：PDFPlumbe轻松玩转PDF，痛快抓数据！助你一臂之力！获取全部代码，见文末关于PDFPlumbePDFPlumb最适合提取电脑生成的PDF，而不是扫描的PDF...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。