Python 使用camelot将PDF转Excel,简单实用

安装camelot

Camelot在读取PDF文件中的表格数据很好用,因此安装这个包就很有需要了,但是直接在cmd里面使用pip install camelot-py会出错,首先提示pip版本需要更新到最新版本,更新之后提示错误Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。这个时候就需要更改文件的权限,将权限更改为【完全控制】。然后执行pip install camelot-py即可。

如果遇见ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。: 'C:\\Users\\zzg\\AppData\\Local\\Temp\\pip-uninstall-u4t4npkt\\pip.exe'
Consider using the `--user` option or check the permissions.这种错误提示,请在pip里面添加--user

pip install --user camelot-py

更多的详细信息,请参考项目地址:https://github.com/camelot-dev/camelot


安装cv2

在安装完camelot-py之后,执行import camelot会报错,提示没有安装cv2,这就得你去cmd里面重新安装cv2了。
直接pip install cv2报错的话,
改成pip install opencv-python即可。


某市生产总值

python程序:

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='70',flavor='stream')
data1[0].to_csv('data1.csv',encoding='utf_8_sig')


转换后的excel文件数据:

转换后

 

转换成功!!!

这里展示的是提取一页的数据,如果想提取多页数据怎么整呢?

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1,5,7,8,9',flavor='stream')
data1[0].to_csv('data1.csv',encoding='utf_8_sig')

这是提取特殊的页数,如果想提取所有页面

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1-70',flavor='stream')
data1.to_csv('data1.csv',encoding='utf_8_sig')

这里导出的数据,是按照每一页导出一个报表展示的

如果想打印获取的data1数据,可以使用df方法来给数据转化为DataFrame格式:

import camelot.io as camelot
import os
os.chdir('C:/Users/EDZ/Desktop')
import cv2
data1= camelot.read_pdf("丽水2019.pdf", pages='1-70',flavor='stream')
data1.to_csv('data1.csv',encoding='utf_8_sig')
print(table1[0].df) 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值