指定PDF或图片多个识别区域，识别区域文字，并导出到Excel文件中

风吹大麦浪

已于 2024-09-29 23:42:56 修改

阅读量285

点赞数 2

文章标签： PDF识别文字并导出Excel 提取PDF指定区域文字扫描PDF文档提取指定内容区域提取PDF内容到Excel 图片识别文字并导出Excel 提取图片指定区域文字提取图片内容到Excel

于 2024-09-29 23:40:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sun222555888/article/details/142645882

版权

常见场景

用户有大量图片/PDF文件，期望能将图片/PDF中的多个区域中的文字批量识别出来，并导入到Excel文件中。期望工具可以批量处理、离线识别（保证数据安全性）。手工操作麻烦。具体场景：用户有工程现场照片，订单，简历等PDF或图片文件，期望按照PDF或图片中关键的文字导出到Excel中，后期对文件进行快速检索，不用每个文件打开看。
在这里插入图片描述

相关技术

QT库、离线OCR识别算法、Python的Excel库。
基本处理思路：
1、批量加载PDF或图片文件
2、指定对应的识别范围
3、根据识别范围裁剪对应图片
4、裁剪后的图片批零OCR识别
5、将识别结果导出到Excel文件中

工具处理

第一步：下载软件

PDF或图片基于文字内容批量改名工具
百度网盘：https://pan.baidu.com/s/104inoJ7RsmbF-P07E882cA?pwd=qpch
腾讯微盘：https://share.weiyun.com/pq0GbDGI

第二步：打开软件

下载软件后，解压缩文件夹到本地，双击JDX图片识别.exe，启动主程序。

第三步：选择要改名的PDF或图片文件

选择待改名的图片或者PDF，可以按照文件夹选择，也可以按部分文件选择。
可分别导入图片文件、或者PDF文件（支持按指定范围页导入）。
在这里插入图片描述

第四步：设置要识别区域（可设置多个）

在识别范围窗体里，添加需要识别的范围（按住鼠标拉框绘制识别区域），通过同步范围设置把当前图片的识别区域同步到其他图片上。
在这里插入图片描述

第五步：对自定义范围进行批量识别文字

执行批量识别文字，识别结果淡绿色，右侧识别结果文字，可以校核与编辑。离线识别。
在这里插入图片描述

第六步：导出结果-导出Excel

选择导出的路径以及导出方式，可以导出Excel，也可以导出Word。导出内容包含：图片名称、指定的多个识别区域（名字），识别文字。
在这里插入图片描述

至此，通过以上步骤就能对PDF或图片按照多个识别区域文字，批量导出Excel。
• 本地离线识别、安全稳定（拔掉网线也能识别运行）
• 批量提取图片文字：提取指定区域文字，导出Excel
• 批量提取PDF文字：提取指定区域文字，导出Excel
• PDF文件支持：可复制版的PDF、扫描版的PDF都支持

风吹大麦浪

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。