参考:http://blog.csdn.net/yasi_xi/article/details/8763385
概述:用4幅手写数字图片为训练样本,1幅为测试样本,按下面方法得Tesseract-OCR新字库num.traineddata。最终识别结果准确率较高。
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
一 前期准备
1.下载并安装tesseract-ocr
我下载的是tesseract-ocr-setup-3.02.02.exe,安装路径为D:\Program Files (x86)\Tesseract-OCR。
尽量不安装在C盘,因为有写限制,不方便。
2.下载并解压jTessBoxEditor
jTessBoxEditor的作用:(1).将多幅图片合并成1幅.tif文件;(2).更正识别错误的字符。
jTessBoxEditor是用java写的,运行前还要安装jre(Java RuntimeEnvironment)。
3.准备训练图片和测试图片