一、jTessBoxEditor工具简单介绍
jTessBoxEditor工具是采用Tesseract的一款专业的orc样本识别训练软件,基于java开发而来,可以进行Tesseract样本训练,形成自己的语言库,提高图片文字的识别率和准确率。
二、安装步骤
2.1 运行环境:jTessBoxEditor.jar运行需要安装jre环境,需要确认自己电脑的jre版本在8.0版本。若是jre6.0,则运行train.bat时会提示找不到主函数,无法正常运行。(如果是已经安装最新版金证自动化测试平台的agent就可以跳过jre安装)
2.2 jdk-8u201-windows-x64.exe下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
2.3 jTessBoxEditor下载安装
A-官网下载地址:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
B-百度云盘下载地址(jTessBoxEditor-2.2.0和jTessBoxEditorFX-2.2.0和中文库chi_sim.traineddata,其中任何一个都可以):
链接:https://pan.baidu.com/s/1yjavV_EUwvmWSqbeKQUXgA
提取码:gxrd
!!!!这些都不需要安装,直接解压即可!!!!!!
C-如下图,在解压之后的目录下点击图中两个文件都可以启动
启动成功的界面:
三、 使用操作
操作步骤描述
必要操作文字说明:先制作图片→生成box文件→训字操作→制作新库
3.1 制作格式图片
如果使用工具制作box文件和库,该步骤可以忽略!
后续操作以如下图片为例:
图片目录:
图片内容:
3.2 根据图片产出box格式文件
操作见如下图片1,2,3,4,5,6操作:
Run操作后结果如下图:
Box文件打开内容如下:
!!!可以看到有几个字没有识别有误,下面就是手动矫正错误的地方!!!
3.2 训字操作详解
1.打开jTessBoxEditor的如下界面:
2 点击“open”打开目标图片2.png,如下图:
3 点打开之后,界面如下:
4 开始矫正错误数据
4.1按上图选中错误“旧”字,然后单击“Box View”,结果如下图:
4.2
把错误的字矫正完后,如下图:
Box文件如下图:
3.4 制作新库
制作新库操作操作如下图1,2,3,4,5,6:
注:新库的命名可以按标准格式命名,如下(此处演示就用num表示):
文面命名格式[lang].[fontname].exp[num]
lang是语言,fontname是字体,num为自定义数字
输入结果如图:
在目标图片(box文件)同级目录下,会产生如上图展示的文件,我们的新库就在tessdata目录下,其余中间文件都是没用的可以删掉
新库如下:
然后把新库拷到Tesseract-OCR\tessdata目录下就可以使用了:
3.5 直接识别和训字后识别效果比对效果如下:
Python代码验证:
用jTessBoxEditor工具验证(用制作box文件操作步骤验证):
A--识别语言选择用新库如下图(前提也必须把新库拷贝到你使用tesseract.exe对应的tessdata目录下):
B-查看新的box文件就中数据,如下:
四 后续可以研究的内容
- 如果合并训后的库,该工具好像不行,只能用cmd 命令(命令和复杂);
- 上述工作,其实也可以cmd命令完成,但是比较啰嗦,而且文件格式有一些特定要求;