当我们在Windows环境下安装了tesseract4后,需要配置环境变量
找到tesseract.exe所在的目录
然后在系统环境变量里的path目录添加tesseract.exe所在的目录
添加语言库的环境变量,找到存放语言库tessdata的目录
在系统环境变量里新建变量
变量名:TESSDATA_PREFIX
变量值:E:\tesseract-4.0.0\tessdata
这样tesseract的环境变量就全部配置完了。
我们打开cmd命令控制台,输入tesseract,显示如下信息表明tesseract.exe已经添加到path里
检查语言库是否正确配置
输入命令:tesseract --list-langs
显示如下:
以上正确显示表明tesserac环境变量正确配置成功
接下来我们来识别下面这张图片的内容
首先进入这个图片所在的目录
使用命令cd E:\image
使用命令
tesseract test.png out -l chi_sim+eng
然后在图片目录下输入识别结果out.txt文件
打开out.txt文件发现图片上文字已经正确识别
对命令进行详解
tesseract test.png out -l chi_sim+eng
test.png为图片名称,可以写图片具体路径和名称;out为结果输出保存文件名,默认为txt文件;-l表示使用的语言库languages;chi_sim+eng代表语言库的名称,chi_sim为简体中文,eng为英文