tesseract-ocr的安装及使用

OCR (Optical Character Recognition,光学字符识别),是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。目前出现很多OCR技术(tesseract-ocr 、百度、腾讯、阿里等有推出OCR技术),但是老的OCR技术还是要了解下,最主要的是tesseract-ocr 开源。

目录

1.tesseract-ocr下载

2.tesseract-ocr安装

3.配置环境变量

4.验证安装配置


1.tesseract-ocr下载

参考:https://github.com/tesseract-ocr/tesseract 可以找到相关源码,本文主要介绍安装包的下载及安装。

安装包下载地址:https://digi.bib.uni-mannheim.de/tesseract/

其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,w64为Windows 64位操作系统w32是Windows 32位操作系统的安装包。当然要是电脑是linux系统,可以到debian目录下找对应版本。

本文以下载Window64位的版本:tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe

附百度网盘下载地址:

链接:https://pan.baidu.com/s/18hR0dWBjCZjfs__nQ-F8xw 提取码:3iec

下载比较慢,可以使用IDM工具下载。

IDM工具下载链接:https://pan.baidu.com/s/1sAEJowbEfqwuV5mNtyVGDg  提取码:p4lv

2.tesseract-ocr安装

下载完成后双击:tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe

根据向导安装:

记住安装路径,后面配置环境变量要用。

3.配置环境变量

a.将安装目录(D:\Program Files\Tesseract-OCR)加入path;

b.新增环境变量TESSDATA_PREFIX

4.验证安装配置

安装配置完毕,可以使用这个命令:tesseract -v 

确认安装的版本,如下图:表示安装正确。

用命令:tesseract --list-langs

查看Tesseract-OCR支持语言。

关于支持的语音,可以通过训练库来扩展,也可以通过下载库进行扩展:https://github.com/tesseract-ocr/tessdata

把训练或者下载好的库放在TESSDATA_PREFIX指定的路径下即可。

最后,拿图片测试:

放置在D盘根目录,命名为:screenshot.png

命令:tesseract  D:screenshot.png D:11.txt

可将图片中的文字提取到D:11.txt。

11.txt内容:

 

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT_熊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值