批量识别PDF文件(图片类型)中的文字

VIP文章 kkyy2021

已于 2022-05-08 12:25:20 修改

阅读量2.7k

点赞数 3

分类专栏： PDF文字识别 tesseract OCR 文章标签： opencv 全文检索文档资料

于 2022-04-16 20:17:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kkyy2021/article/details/124219059

版权

如何批量识别PDF图片中的文字，一直是一个效率很低，很繁琐的事情。小编为大家提供一款基于tesseract5.0 OCR版本的PDF文件(图片类型)批量识别工具，此工具的用途是批量把PDF转换成文本文件，也可以转换为双层PDF（原来PDF在前面，后面加一层文字层）。

此软件自带识别引擎，不需要其他识别引擎支持，可以在局域网等内网环境。操作非常简单，选中文件夹自动加载全部pdf文件，或者选中某几个PDF文件，点击按键即可完成识别。识别率很高在96%以上，速度也非常快，300页图片型PDF文件在3分钟内完成识别并生成新双层PDF文件。　

本系统可以实现内网环境下本地化部署，不需要把文件上传到互联网，可以保障文件安全，不会导致泄密。

　 64位windows操作系统上一键安装，没有其他环境要求。下载地址如下: https://www.gaya-soft.cn/download/

以下简单介绍一下软件使用:

打开软件，选择PDF文件或者选择一个文件夹，软件会自动加载改文件夹下全部PDF文件，点击"识别选中文件"，系统开始识别PDF文件, 如下图:

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
批量识别PDF文件(图片类型)中的文字

小编为大家提供一款完全免费的基于tesseract5.0 OCR版本的PDF文件(图片类型)批量识别工具，此工具的用途是批量把PDF转换成文本文件，也可以转换为双层PDF（原来PDF在前面，后面加一层文字层）。此软件完全免费，自带识别引擎，不需要其他识别引擎支持，可以在局域网等内网环境。操作非常简单，选中文件夹自动加载全部pdf文件，或者选中某几个PDF文件，点击按键即可完成识别。识别率很高在96%以上，速度也非常快，300页图片型PDF文件在3分钟内完成识别并生成新双层...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。