mysql表中pdf文件读取_手把手教学:提取PDF各种表格文本数据(附代码)

本文介绍了使用PDFPlumber库来提取PDF中的表格和文本数据,包括基本用法、从PDF中提取图形数据、自定义策略解析表格以及处理固定宽度数据。PDFPlumber适用于Python 2.7和3.x版本,适用于电脑生成而非扫描的PDF。通过实例展示了如何利用PDFPlumber进行数据抓取和清理,帮助提升数据处理效率。
摘要由CSDN通过智能技术生成

原标题:手把手教学:提取PDF各种表格文本数据(附代码)

量化投资与机器学习编辑部报道

还在为抓取各种PDF格式的财务、数据报表而烦恼吗?

还在为自己手工操作导致的效率低下而烦恼吗?

还在担心没有趁手的兵器吗?

今天,公众号为大家介绍一款神器:

PDFPlumbe

轻松玩转PDF,痛快抓数据!助你一臂之力!

f0c43551645a46de59753b82c2d85f6c.png

获取全部代码,见文末

关于PDFPlumbe

PDFPlumb最适合提取电脑生成的PDF,而不是扫描的PDF。 它是在pdfminer和pdfmine.six基础上设计的。

适用版本:Python2.7、3.1、3.4、3.5和3.6。

安装PDFPlumbe

pip install pdfplumber

要使用pdfplumber的可视化调试工具,还需要在计算机上安装ImageMagick(https://imagemagick.org/index.php),说明如下:

f97a8166fb0c612aaf652ff8a28fc1f2.png

http://docs.wand-py.org/en/latest/guide/install.html#install-imagemagick-debian

具体参数、提取流程与可视化我们将以案例进行展示,更详细的内容,请大家在文末下载安装包自行查看。

案例一

importpdfplumber

pdf = pdfplumber.open("../pdfs/ca-warn-report.pdf")

p0 = pdf.pages[0]

im = p0.to_image

im

db58de92bda721d33243b637bf3f1b5a.png

使用.extract_table获取数据:

table = p0.extract_table

table[:3]

a365f9a6e9d1623b20268794af0e0be6.png

使用pandas将列表呈现为一个DataFrame,并在某些日期内删除多余的空格。

importpandas aspd

df = pd.DataFrame(table[1:], columns=table[0])

forcolumn in["Effective", "Received"]:

df[column] = df[column].str.replace(" ", "")

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值