1. 环境准备
1.1 下载
下载Tesseract-OCR安装包,地址为:
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w32-setup-v4.0.0-beta.1.20180608.exe
参考链接:https://github.com/tesseract-ocr/tesseract
1.2 安装
双击安装,语言库部分选择math,chinese simplified.
1.3 添加环境变量
将Tesseract-OCR安装目录加入环境变量,
变量名TESSDATA_PREFIX
变量值F:\Program Files (x86)\Tesseract-OCR\tessdata
1.4 测试
将以下图片保存为test.jpg,然后放在E盘根目录下
在cmd窗口中执行 tesseract test.jpg test.txt –l chi_sim+eng(chi_sim是中文识别包,equ是数学公式包,eng是英文包),即可将图片中的文字识别出来,识别结果如下:
1.5 语言库
语言库地址为:https://github.com/tesseract-ocr/tessdata
将所需要的语言库下载下来,放在F:\Program Files (x86)\Tesseract-OCR\tessdata目录下
1.6 编译生成定制的字库
采用jTessBoxEditor 生成自己的字库。
1.6.1 软件准备
首先需要安装java虚拟机10.0.2+jTessBoxEditor。
jTessBoxEditor下载地址:
https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
这里我们下载jTessBoxEditorFX-2.0.1.zip版本,带FX的版本,才支持中文字符编辑。
1.6.2 字库制作
字库制作具体步骤:
1.环境变量设置
解压jTessBoxEditorFX-2.0.1.zip,发现有tesseract-ocr文件夹,里面有tesseract.exe软件。因此我们要将系统中之前安装的tesseract软件卸载,将环境变量定位到当前tesseract-ocr所在文件夹。
此外还需要添加环境变量:TESSDATA_PREFIX,变量值指向
..\jTessBoxEditorFX\tesseract-ocr\tessdata
2.图片准备
我们希望制作一个数字字库,能够识别以下字体的数字。
我们将上面图片中的每一行保存成一个小图片。然后打开然后用java虚拟机打开jTessBoxEditorFX.jar。
选择 Tools -> Merge TIFF,打开对话框,选择训练样本所在文件夹,并选中所有要参与训练的样本图片,注意对话框中“文件类型”的选取:
点击 “打开” 之后弹出保存对话框,还是选择在当前路径下保存,文件命名为 “num_my.font.exp0.tif” ,格式只有一种 “TIFF” 可选: