PDF 转 Excel、图片转 Excel 这些功能在互联网环境中有大把的工具,但是每一个除了要收费就是效率低、准确度低。偶尔能勉强用于数据转换,但在企业环境中,很难真正的高效使用起来。
介绍
这是一款开源工具,我给它取名叫Any2Excel
。顾名思义,往后的目标就是提取任意格式文件中的数据图表到可被结构化处理的 Excel 文件。识别度高,操作简单,使用场景广泛。
支持手机拍照、扫描件、原件、复印件等等
项目地址
https://gitee.com/famio/Any2Excel原理
- PDF 文件转化为图像文件
- 将图像文件上传到腾讯云 OCR 服务接口进行解析
- 数据处理(ETL)
- 将原始数据转换为 Excel 文件
支持格式
PDF
JPEG
PNG
BMP
TIFF
使用方式
工具支持以下四种执行方式- Python Command Line
- 双击可执行文件
- 文件拖拽到可执行文件
- WebAPI(WIP)
Python Commond Line
建议:适合企业中的批量处理能力,和 RPA 可协同。打开任意终端命令行程序,进入到工具根目录后执行python pdf2excel.py test.pdf
稍等即可在根目录下输出的
result.xls
文件。该方式同样支持
image2excel.py
。
双击可执行文件
此方式和Python Commond Line
类似,但是需要手动输入 PDF 文件名(完整路径),回车后执行,同样会输出文件。
文件拖拽到可执行文件
此方式同上,只是程序执行的触发方式不同。虽然说明是可执行文件,实际上拖拽到pdf2excel.py
这样的源文件上也是可以被执行的。