excel引用另一个文件的数据_高效提取PDF文件中的数据表格到Excel

PDF 转 Excel、图片转 Excel 这些功能在互联网环境中有大把的工具,但是每一个除了要收费就是效率低、准确度低。偶尔能勉强用于数据转换,但在企业环境中,很难真正的高效使用起来。

介绍

这是一款开源工具,我给它取名叫 Any2Excel。顾名思义,往后的目标就是提取任意格式文件中的数据图表到可被结构化处理的 Excel 文件。识别度高,操作简单,使用场景广泛。 支持手机拍照、扫描件、原件、复印件等等

项目地址

https://gitee.com/famio/Any2Excel

原理

  • PDF 文件转化为图像文件
  • 将图像文件上传到腾讯云 OCR 服务接口进行解析
  • 数据处理(ETL)
  • 将原始数据转换为 Excel 文件

支持格式

PDF  JPEG  PNG  BMP  TIFF

使用方式

工具支持以下四种执行方式
  • Python Command Line
  • 双击可执行文件
  • 文件拖拽到可执行文件
  • WebAPI(WIP)

Python Commond Line

建议:适合企业中的批量处理能力,和 RPA 可协同。打开任意终端命令行程序,进入到工具根目录后执行 python pdf2excel.py test.pdf稍等即可在根目录下输出的 result.xls文件。该方式同样支持 image2excel.py

双击可执行文件

此方式和 Python Commond Line类似,但是需要手动输入 PDF 文件名(完整路径),回车后执行,同样会输出文件。

文件拖拽到可执行文件

此方式同上,只是程序执行的触发方式不同。虽然说明是可执行文件,实际上拖拽到 pdf2excel.py这样的源文件上也是可以被执行的。

WebAPI

正在构建基于 WebAPI 的接口,后续会发布。

演示视频

f7689cba36bce55bed5fb59cd32ffd7c.gif

结果对比

原始图像

93e241519be829716816766246377709.png

提取数据

680199e26864f1364a102d776a7adc9a.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值