一、制作自己的字库
1、下载jTessBoxEditorFX
注意jTessBoxEditor有两个版本,带FX的版本才支持中文字符编辑,我们下载带FX版本的。在这个网址上列出了所有的jTessBoxEditorFX版本。
- 选择了jTessBoxEditorFX-2.2.0安装
- 我们将图片放到jTessBoxEditorFX目录下新建的train_image文件夹下。
点击jTessBoxEditorFX.jar文件
2、生成tif文件
- 选择 Tools -> Merge TIFF,打开对话框,选择训练样本所在文件夹,并选中所有要参与训练的样本图片,注意对话框中“文件类型”的选取,选择所有的图片文件
选择好了后,点击打开按钮,出现文件保存对话框,输入文件名:first_pic.tif
3、使用tesseract生成.box文件
打开命令提示符,进入步骤2生成的first_pic.tif文件所在目录
tesseract first_pic.tif first_pic -l chi_sim batch