获取获取table的数据_手把手教学:提取PDF各种表格文本数据

来源:量化投资与机器学习

还在为抓取各种PDF格式的财务、数据报表而烦恼吗?

还在为自己手工操作导致的效率低下而烦恼吗?

还在担心没有趁手的兵器吗?

今天,公众号为大家介绍一款神器:

PDFPlumbe

轻松玩转PDF,痛快抓数据!助你一臂之力!

ab2a49d4b2705be4135f0aa5f7c3d207.png

获取全部代码,见文末

关于PDFPlumbe

PDFPlumb最适合提取电脑生成的PDF,而不是扫描的PDF。 它是在pdfminer和pdfmine.six基础上设计的。

适用版本: Python2.7、3.1、3.4、3.5和3.6。

安装PDFPlumbe

pip install pdfplumber

要使用pdfplumber的可视化调试工具,还需要在计算机上安装ImageMagick(https://imagemagick.org/index.php),说明如下:

d0b07b1d24e7809de19cc9489fb566a6.png

http://docs.wand-py.org/en/latest/guide/install.html#install-imagemagick-debian

具体参数、提取流程与可视化我们将以案例进行展示,更详细的内容,请大家在文末下载安装包自行查看。

案例一

import pdfplumberpdf = pdfplumber.open("../pdfs/ca-warn-report.pdf")p0 = pdf.pages[0]im = p0.to_image()im
173c42dfa4d94bbf7a280464c0fe0fcc.png

使用 .extract_table 获取数据:

table = p0.extract_table()table[:3]
940915a0d3e3c124abd679d362cddc1b.png

使用pandas将列表呈现为一个DataFrame,并在某些日期内删除多余的空格。

import pandas as pddf = pd.DataFrame(table[1:], columns=table[0])for column in ["Effective
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值