tesseract-ocr的安装及使用

最新推荐文章于 2024-09-24 16:09:45 发布

IT_熊

最新推荐文章于 2024-09-24 16:09:45 发布

阅读量3.9k

点赞数 4

分类专栏：知识扩展

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/servermanage/article/details/103553910

版权

知识扩展专栏收录该内容

13 篇文章 1 订阅

订阅专栏

OCR （Optical Character Recognition，光学字符识别），是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。目前出现很多OCR技术（tesseract-ocr 、百度、腾讯、阿里等有推出OCR技术），但是老的OCR技术还是要了解下，最主要的是tesseract-ocr 开源。

目录

1.tesseract-ocr下载

2.tesseract-ocr安装

3.配置环境变量

4.验证安装配置

1.tesseract-ocr下载

参考：https://github.com/tesseract-ocr/tesseract 可以找到相关源码，本文主要介绍安装包的下载及安装。

安装包下载地址：https://digi.bib.uni-mannheim.de/tesseract/

其中文件名中带有dev的为开发版本，不带dev的为稳定版本，可以选择下载不带dev的版本，w64为Windows 64位操作系统w32是Windows 32位操作系统的安装包。当然要是电脑是linux系统，可以到debian目录下找对应版本。

本文以下载Window64位的版本：tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe

附百度网盘下载地址：

链接：https://pan.baidu.com/s/18hR0dWBjCZjfs__nQ-F8xw 提取码：3iec

下载比较慢，可以使用IDM工具下载。

IDM工具下载链接：https://pan.baidu.com/s/1sAEJowbEfqwuV5mNtyVGDg 提取码：p4lv

2.tesseract-ocr安装

下载完成后双击：tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe

根据向导安装：

记住安装路径，后面配置环境变量要用。

3.配置环境变量

a.将安装目录(D:\Program Files\Tesseract-OCR)加入path;

b.新增环境变量TESSDATA_PREFIX

4.验证安装配置

安装配置完毕，可以使用这个命令：tesseract -v

确认安装的版本，如下图：表示安装正确。

用命令：tesseract --list-langs

查看Tesseract-OCR支持语言。

关于支持的语音，可以通过训练库来扩展，也可以通过下载库进行扩展：https://github.com/tesseract-ocr/tessdata

把训练或者下载好的库放在TESSDATA_PREFIX指定的路径下即可。

最后，拿图片测试：

放置在D盘根目录，命名为：screenshot.png

命令：tesseract D:screenshot.png D:11.txt

可将图片中的文字提取到D:11.txt。

11.txt内容：

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

IT_熊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。