python读取pdf文档环境搭建

最新推荐文章于 2024-07-25 08:11:35 发布

涛哥依旧在

最新推荐文章于 2024-07-25 08:11:35 发布

阅读量817

点赞数

分类专栏： Python 文章标签： python pdf 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luohaitao/article/details/127702392

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

python读取pdf文档，有好几种方式，测试了pdfminer，本方法的问题在于，读取时候貌似按照位置读取，一旦文档里面的内容稍微调整，所读取的内容就会出问题，因为我这次要读取的是pdf里面的表格，用pdfminer的方式，读取的格式很乱，试了两天找不到规律，果断放弃了；另外一种是用tabula读取，这个是按行读取的，读取的时候如果一个表格里面分为好几行，一行表格里面几个单元格的内容如果不对齐，哪怕是有小的上下波动都会被读取到不同的行里面，这个后续还需要做一些调整才能将pdf还原到表格文件中。对于tabula方式，下面描述一下具体安装过程。

1、下载pip，这个是用来安装tabula用的，这个包在官网可以下载。https://pypi.org/project/pip/#files

2、下载后解压，并通过cmd定位到解压的文件夹下面，里面有个setup.py文件，然后输入命令：python setup.py install进行安装，装完以后可以通过命令行输入pip --version或pip list来查看是否安装成功。

3、下载tabula，这个可以到官网下载https://github.com/chezou/tabula-py，下载压zip缩包：

4、解压到文件下，然后cmd到该目录下，运行：pip install tabula-py进行安装，安装动画还是挺好看的。

5、装完之后可以运行一个小程序测试一下。

#-*- conding: utf-8 -*-

import tabula

df = tabula.read_pdf("E:\\test\\extract\\2017gq\\a53277ce525547088780c4b94accb7b5.pdf", encoding='gbk', pages='all')

print(df)

for indexs in df.index:

print(df.loc[indexs].values[1].strip())

运行结果如下

涛哥依旧在

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
python读取pdf文档环境搭建

python读取pdf文档，有好几种方式，测试了pdfminer，本方法的问题在于，读取时候貌似按照位置读取，一旦文档里面的内容稍微调整，所读取的内容就会出问题，因为我这次要读取的是pdf里面的表格，用pdfminer的方式，读取的格式很乱，试了两天找不到规律，果断放弃了；另外一种是用tabula读取，这个是按行读取的，读取的时候如果一个表格里面分为好几行，一行表格里面几个单元格的内容如果不对齐，哪怕是有小的上下波动都会被读取到不同的行里面，这个后续还需要做一些调整才能将pdf还原到表格文件中。
复制链接

扫一扫

专栏目录

涛哥依旧在 CSDN认证博客专家 CSDN认证企业博客

码龄20年

105: 原创

17万+: 周排名

1万+: 总排名

20万+: 访问

: 等级

2493: 积分

1008: 粉丝

1331: 获赞

30: 评论

1331: 收藏

私信

关注

热门文章

分类专栏

日常学习 6篇
Python 2篇
PCB 20篇
IDE开发环境 28篇
Java 35篇
JavaScript 24篇
数据库 5篇
Oracle 5篇
Linux系统 7篇
国产化 4篇
VB 2篇
C/C++ 1篇
C# 9篇

最新评论

Javascript怎么输出内容？两种常见方式以及控制台介绍
阿J~: 膜拜技术大佬,也来我博客指点指点呗, 谢谢!
Ubuntu20.04无法使用中文输入及切换快捷键设置
巍巍清风: 把fcitx卸载重启之后可以了
来点基础的吧，JavaScript、JSP怎么打印输出，方便调试
小王毕业啦: 博主的文章真是让我受益匪浅，通过讲解JavaScript、JSP的打印输出功能，我对这个主题有了更深入的理解。文章中的细节清晰明了，让我更快地掌握了相关知识。我对博主的专业知识和经验深感钦佩，期待博主能继续分享更多有价值的内容。希望未来能得到博主的指导，一起不断进步。再次感谢博主的辛苦付出和分享！
Javascript怎么输出内容？两种常见方式以及控制台介绍
冬天vs不冷: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章内容丰富，涵盖了很多实用的知识点。非常感谢博主的分享，期待博主能够继续输出这样优质的好文。同时也希望可以来我博客指导我一番！
数据库DMP格式备份文件
ha_lydms: 我很感激作者为我们带来了这么多优秀的内容，让我觉得自己在每次阅读中都得到了启发和提升。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

涛哥依旧在 你的鼓励是我最大的创作动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。