Tesseract,是一个开源文本识别 (OCR) 引擎,是由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,可以不断的训练自己的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
安装
百度搜索Tesseract,选择适合的版本安装,如安装位置D:\Tesseract-OCR,安装完成之后,增加环境变量TESSDATA_PREFIX,指向到D:\Tesseract-OCR\tessdata,在Path环境变量中增加D:\Tesseract-OCR。
如果需要识别中文,下载中文语言包,下载地址https://digi.bib.uni-mannheim.de/tesseract/tessdata_fast/,下载完成后放到D:\Tesseract-OCR\tessdata目录下面
检查是否安装成功
通过tesseract --version命令如果能看以下相关信息,说明安装成功
测试
使用命令行测试
打开命令行窗口,输入 tesseract test.