python pdf 数据转excel 表格_python实现PDF中表格转化为Excel的方法

最新推荐文章于 2024-05-04 18:26:12 发布

yyyshdy

最新推荐文章于 2024-05-04 18:26:12 发布

阅读量1.3k

点赞数

文章标签： python pdf 数据转excel 表格

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31814585/article/details/113963136

版权

这几天想统计一下《中国人文社会科学期刊 AMI 综合评价报告(2018 年)：A 刊评价报告》中的期刊，但是只找到了该报告的PDF版，对于表格的编辑不太方便，于是想到用Python将表格转成Excel格式。

看过别人写的博客，发现Python解析PDF有以下四种方式：

-pdfminer:擅长文字的解析，把表格解析成普通的文本，没有格式；

-pdf2html:把pdf解析成html，但html的标签并没有规律，解析一个表格还可以，多个表格的话不太好提取；

-tabula:对于简单的表格，即单元格中没有换行的，表头表尾形式不复杂的，使用比较方便。但是单脑需要Java环境；

-pdfplumber:是一个可以处理pdf格式信息的库。可以查找关于每个文本字符、矩阵、和行的详细信息，也可以对表格进行提取并进行可视化调试。

本文采用pdfplumber库读取PDF中的表格，运行环境：Python3.5.2，Anaconda4.2.0。首先简单介绍一下pdfplumber库：

-pdfplumber.pdf中包含了.metadata和.pages两个属性：

.metadata是一个包含pdf信息的字典。

.pages是一个包含页面信息的列表。

-pdfplumber.page的类中包含的主要的属性ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python pdf 数据转excel 表格_python实现PDF中表格转化为Excel的方法

这几天想统计一下《中国人文社会科学期刊 AMI 综合评价报告(2018 年)：A 刊评价报告》中的期刊，但是只找到了该报告的PDF版，对于表格的编辑不太方便，于是想到用Python将表格转成Excel格式。看过别人写的博客，发现Python解析PDF有以下四种方式：-pdfminer:擅长文字的解析，把表格解析成普通的文本，没有格式；-pdf2html:把pdf解析成html，但html的标签并没...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。