亲测jTessBoxEditor训练中文字库 有效测试

这两天在写识别身份证信息,发现tesseract-ocr识别字库中的中文chi_sim识别字体仍然有乱码出现,识别率不是很高,所以各种百度找准确率高的字库,结果就是自己创造,下面就说步骤,很简单哦,大家直接按照步骤完成就好啦!
第一步:找到jTessBoxEditor压缩包,解压到你想放到的路径,这里提供的版本为2.2.0版本
注意:这里也必须你的电脑上要有jre,而且版本必须为1.8.0以上
在这里插入图片描述
第二步:首先准备一张地址图片,放在自定义的文件夹下,命名为address.normal.exp0.jpg,并且复制一份命名为address.normal.exp0.tif
说明:1、 .jpg命名要与.tif命名相同,不然一会识别tif文件识别不出来
2、 .tif命名格式是有规定的:
[lang].[fontname].exp[num].tif
lang是语言 fontname是字体
例如:训练自定义库名为address
字体名为normal
所以将address.normal.exp0.jpg重命名为.tif。
在这里插入图片描述
第三步:生成box文件,执行命令

tesseract address.normal.exp0.jpg address.normal.exp0 -l chi_sim batch.nochop makebox

在这里插入图片描述
执行成功,我们用记事本看一下box文件,发现是乱七八糟的
在这里插入图片描述
说明:box文件一定要与tif文件放在同一个文件夹下
第四步:接下来就要用jTessBoxEditor进行纠错训练,打开jTessBoxEditor文件下的train.bat
选择Box Editor->open,打开address.normal.exp0.tif文件
注意:下图的内容是我操作完的,未操作的图片其实就是左侧的char为识别出来的乱码,大 家在红框地方进行操作就可以得到正确的结果
操作完成后,点击save保存box文件
在红框出对蓝框的内容进行操作
第五步:用echo命令创建字体特征文件

echo address 0 0 0 0 0>font_properties

在这里插入图片描述
执行完成之后,在当前文件夹下生成font_properties文件
在这里插入图片描述
第六步:用tesseract生成.tr训练文件

tesseract address.normal.exp0.tif address.normal.exp0 nobatch box.train

成功后看到:
在这里插入图片描述
在这里插入图片描述
第七步:生成字符集文件

unicharset_extractor address.normal.exp0.box

在这里插入图片描述
在这里插入图片描述
第八步:生成数据字典

mftraining -F font_properties -U unicharset -O address.unicharset address.normal.exp0.tr

在这里插入图片描述

cntraining address.normal.exp0.tr

执行后,会生成四个文件:inttemp、pffmtable、normproto、shapetable
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里需要手动修改成为:address.inttemp、address.pffmtable、address.normproto、address.shapetable
在这里插入图片描述
第九步:合并数据文件,生成字库文件

combine_tessdata address.

在这里插入图片描述
成功后会在当前文件夹下生成address.traineddata文件,这个语言就是跟我们下载的官方字库一样,例如eng,chi_sim一样,不过这个字库专门用于识别纠正图片中那种数字字体。
在这里插入图片描述
我们把这个字库address放到tesseract-ocr的tessdata目录下C:\Program Files (x86)\Tesseract-OCR\tessdata
在这里插入图片描述
第十步:测试结果,完全的将文字正确的识别出来了
在这里插入图片描述
在这里插入图片描述
文章参考:1、https://blog.csdn.net/qq_37781464/article/details/90292350?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param
2、https://www.cnblogs.com/wzben/p/5930538.html

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值