OCR (Optical Character Recognition,光学字符识别),是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。目前出现很多OCR技术(tesseract-ocr 、百度、腾讯、阿里等有推出OCR技术),但是老的OCR技术还是要了解下,最主要的是tesseract-ocr 开源。
目录
1.tesseract-ocr下载
参考:https://github.com/tesseract-ocr/tesseract 可以找到相关源码,本文主要介绍安装包的下载及安装。
安装包下载地址:https://digi.bib.uni-mannheim.de/tesseract/
其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,w64为Windows 64位操作系统w32是Windows 32位操作系统的安装包。当然要是电脑是linux系统,可以到debian目录下找对应版本。
本文以下载Window64位的版本:tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe
附百度网盘下载地址:
链接:https://pan.baidu.com/s/18hR0dWBjCZjfs__nQ-F8xw 提取码:3iec
下载比较慢,可以使用IDM工具下载。
IDM工具下载链接:https://pan.baidu.com/s/1sAEJowbEfqwuV5mNtyVGDg 提取码:p4lv
2.tesseract-ocr安装
下载完成后双击:tesseract-ocr-w64-setup-v5.0.0-alpha.20191030.exe
根据向导安装:
记住安装路径,后面配置环境变量要用。
3.配置环境变量
a.将安装目录(D:\Program Files\Tesseract-OCR)加入path;
b.新增环境变量TESSDATA_PREFIX
4.验证安装配置
安装配置完毕,可以使用这个命令:tesseract -v
确认安装的版本,如下图:表示安装正确。
用命令:tesseract --list-langs
查看Tesseract-OCR支持语言。
关于支持的语音,可以通过训练库来扩展,也可以通过下载库进行扩展:https://github.com/tesseract-ocr/tessdata
把训练或者下载好的库放在TESSDATA_PREFIX指定的路径下即可。
最后,拿图片测试:
放置在D盘根目录,命名为:screenshot.png
命令:tesseract D:screenshot.png D:11.txt
可将图片中的文字提取到D:11.txt。
11.txt内容: