提取PDF表格数据

利用python 中的camelot库可以提取基于文本的PDF表格数据,(注意扫描版的则不能,基于文本的是指可以在该PDF文档上选取文本,而扫描版的PDF为图像格式)关键词read_pdf 可以读取PDF文件plot(tables[0],kind=‘text’)关键词plot可以绘制表格轮廓,其中kind参数可以定义为1.text 可显示所有文本,在图片上移动可以记录每个文本的坐标2....
摘要由CSDN通过智能技术生成

利用python 中的camelot库可以提取基于文本的PDF表格数据,(注意扫描版的则不能,基于文本的是指可以在该PDF文档上选取文本,而扫描版的PDF为图像格式)
关键词read_pdf 可以读取PDF文件
plot(tables[0],kind=‘text’)
关键词plot可以绘制表格轮廓,其中kind参数可以定义为
1.text 可显示所有文本,在图片上移动可以记录每个文本的坐标
2.grid 绘制表格轮廓
3.line绘制表格内部的线
4.joint 绘制表格线相交点
5.contour 绘制表格边界
6.textedge 绘制文本边缘

利用上述参数可以找到表格的左上角和右下角坐标,
添加表格区域重新读取PDF表格,添加关键词table_areas可以精确定义表格区域,其中参数为(左上角,右下角)坐标;添加关键词table_regions可以模糊定义表格区域

将结果导出成csv时,可能是因为ie结果中有中文,用excel打开出现乱码,此时需指定编码格式utf_8_sig
官方camelot使用文档: https://camelot-py.readthedocs.io/en/master/
.

import camelot
import matplotlib.pyplot 
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值