将jTessBoxEditor训练的字库合并

集成环境:win10,jTessBoxEditor-1.7.3

1.需要生成字符集的.tif和.box这俩个文件。

假设:需要合并三个字典liu.宋体.exp0,liu1.微软雅黑light.exp0,micrsoft.microsoftyaheiuilight.exp0(注:个人生成的字典有个人的名字,建议用自己的名字)

(1)将这三个字典的.tif和.box文件拷贝到一个文件夹下;

2.生成相对应的tr文件:

(1)生成liu.宋体.exp0的tr文件

命令:tesseract liu.宋体.exp0.tif liu.宋体.exp0 nobatch box.train(DOS下运行)

 

(2)生成liu1.微软雅黑light.exp0的tr文件

命令:tesseract liu1.微软雅黑light.exp0.tif liu1.微软雅黑light.exp0 nobatch box.train

(3)生成:micrsoft.microsoftyaheiuilight.exp0的tr文件

命令:tesseract micrsoft.microsoftyaheiuilight.exp0.tif micrsoft.microsoftyaheiuilight.exp0 nobatch box.train

3.从所有文件中提取字符

命令:unicharset_extractor liu.宋体.exp0.box liu1.微软雅黑light.exp0.box micrsoft.microsoftyaheiuilight.exp0.box

4.生成字体特征文件

新建font文件(注文件后缀没有.txt),把所有box对应的字体特征加进去。

fontname为字体名称,保持和 图片集文件 .tif 和.box文件的前缀名一致 ,italic> 、<bold> 、<fixed> 、<serif>、 <fraktur>的取值为1或0,表示字体是否具有这些属性。

 

例如我新建了一个 名为 font,内容 为

然后执行命令:mftraining -F font -U unicharset liu.宋体.exp0.tr liu1.微软雅黑light.exp0.tr micrsoft.microsoftyaheiuilight.exp0.tr

 

5.聚合所有的tr文件:

命令:cntraining liu.宋体.exp0.tr liu1.微软雅黑light.exp0.tr 

6.重命名文件,我把unicharset, inttemp, normproto, pfftable ,shapetable这几个文件加了前缀why.(注:why.只是我给合成的字典的命名,个人随意)

7.合并所有文件,生成一个大的资库文件。

命令:combine_tessdata why.

 

注:由于花费了好多时间才搞出来的,所以写的有点啰嗦,望谅解。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值