训练tesseract-ocr3.00字典的步骤

前提条件:
tesseract-ocr3.00正常安装
训练步骤:
1.将要加入字典的图片转化为.tif格式的图片,文件的命名规则为[lang].[fontname].exp[num].tif, 例如:eng.oms261.g4.tif,注意此处[fontname]命名不能相同。 再根据.tif格式图片生成.box文件,命令:
 tesseract eng.oms261.g4.tif eng.oms261.g4 batch.nochop makebox
2.纠正.box文件中的错误,这里可以使用工具,有不同的工具,根据环境不同选择,Linux下推荐使用 moshPyTT(下载地址,http://code.google.com/p/moshpytt/)
3.根据生成的.box文件生成.tr文件。 命令:
 tesseract eng.oms261.g4.tif eng.oms261.g4 nobatch box.train
4.生成unicharset文件。 命令:
 unicharset_extractor eng.oms261.g4.box ...
注意:从5~9步骤必须在windows环境下进行,Linux下不支持,这是Tesseract-3.00的BUG.
5.生成 pffmtable, inttemp文件. 命令:
 mftraining -U unicharset -O lang.unicharset eng.oms261.g4.tr ...
6.生成 normproto文件。 命令 :
 cntraining eng.oms261.g4.tr ...
7.将pffmtable,inttemp,normproto文件加前缀,手动改名为: eng.pffmtable,eng.inttemp,eng.normproto, 前缀名与前面的命名保持一致。
8.字典文件和模糊校正文件可以提高OCR的识别率,我们可以获得官方的eng.traindata的此文件, 命令:
 combine_tessdata -u tessdata/eng.traineddata path/eng.
此时语言包的所有文件都解压了,挑出我们需要的
eng.unicharambigs
eng.punc-dawg
eng.word-dawg
eng.number-dawg
eng.freq-dawg
这些文件放到我们训练字典的那个路径.
9.合并训练文件,命令:
 combine_tessdata eng.
得到我们最终训练的文件



  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值