指定PDF或图片多个识别区域,识别区域文字,并导出到Excel文件中

常见场景

用户有大量图片/PDF文件,期望能将图片/PDF中的多个区域中的文字批量识别出来,并导入到Excel文件中。期望工具可以批量处理、离线识别(保证数据安全性)。手工操作麻烦。具体场景:用户有工程现场照片,订单,简历等PDF或图片文件,期望按照PDF或图片中关键的文字导出到Excel中,后期对文件进行快速检索 ,不用每个文件打开看。
在这里插入图片描述

相关技术

QT库、离线OCR识别算法、Python的Excel库。
基本处理思路:
1、批量加载PDF或图片文件
2、指定对应的识别范围
3、根据识别范围裁剪对应图片
4、裁剪后的图片批零OCR识别
5、将识别结果导出到Excel文件中

工具处理

第一步:下载软件

PDF或图片基于文字内容批量改名工具
百度网盘:https://pan.baidu.com/s/104inoJ7RsmbF-P07E882cA?pwd=qpch
腾讯微盘:https://share.weiyun.com/pq0GbDGI

第二步:打开软件

下载软件后,解压缩文件夹到本地,双击JDX图片识别.exe,启动主程序。

第三步:选择要改名的PDF或图片文件

选择待改名的图片或者PDF,可以按照文件夹选择,也可以按部分文件选择。
可分别导入图片文件、或者PDF文件(支持按指定范围页导入)。
在这里插入图片描述

第四步:设置要识别区域(可设置多个)

在识别范围窗体里,添加需要识别的范围(按住鼠标拉框绘制识别区域),通过同步范围设置把当前图片的识别区域同步到其他图片上。
在这里插入图片描述

第五步:对自定义范围进行批量识别文字

执行批量识别文字,识别结果淡绿色,右侧识别结果文字,可以校核与编辑。离线识别。
在这里插入图片描述

第六步:导出结果-导出Excel

选择导出的路径以及导出方式,可以导出Excel,也可以导出Word。导出内容包含:图片名称、指定的多个识别区域(名字),识别文字。
在这里插入图片描述

至此,通过以上步骤就能对PDF或图片按照多个识别区域文字,批量导出Excel。
• 本地离线识别、安全稳定(拔掉网线也能识别运行)
• 批量提取图片文字:提取指定区域文字,导出Excel
• 批量提取PDF文字:提取指定区域文字,导出Excel
• PDF文件支持:可复制版的PDF、扫描版的PDF都支持

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值