来源:量化投资与机器学习
还在为抓取各种PDF格式的财务、数据报表而烦恼吗?
还在为自己手工操作导致的效率低下而烦恼吗?
还在担心没有趁手的兵器吗?
今天,公众号为大家介绍一款神器:
PDFPlumbe
轻松玩转PDF,痛快抓数据!助你一臂之力!
获取全部代码,见文末
关于PDFPlumbe
PDFPlumb最适合提取电脑生成的PDF,而不是扫描的PDF。 它是在pdfminer和pdfmine.six基础上设计的。
适用版本: Python2.7、3.1、3.4、3.5和3.6。
安装PDFPlumbe
pip install pdfplumber
要使用pdfplumber的可视化调试工具,还需要在计算机上安装ImageMagick(https://imagemagick.org/index.php),说明如下:
http://docs.wand-py.org/en/latest/guide/install.html#install-imagemagick-debian
具体参数、提取流程与可视化我们将以案例进行展示,更详细的内容,请大家在文末下载安装包自行查看。
案例一
import pdfplumberpdf = pdfplumber.open("../pdfs/ca-warn-report.pdf")p0 = pdf.pages[0]im = p0.to_image()im
使用 .extract_table 获取数据:
table = p0.extract_table()table[:3]
使用pandas将列表呈现为一个DataFrame,并在某些日期内删除多余的空格。
import pandas as pddf = pd.DataFrame(table[1:], columns=table[0])for column in ["Effective