cnocr训练_OCR词库训练生成步骤

本文详细介绍了如何使用cnocr训练OCR词库,包括图像转换、生成box文件、使用jTessBoxEditor矫正、训练数据生成等步骤。通过一系列命令行操作,最终生成fontyp.traineddata文件,将其应用于Tesseract-OCR进行文字识别。
摘要由CSDN通过智能技术生成

1.将jpg文件转换为tif文件(tif文件名,例如:langyp.font.exp0.tif【jpg转换为tif可用工具jTessBoxEditor】);

2.用tif文件生成box文件:执行

tesseract langyp.font.exp0.tif langyp.font.exp0 -l eng -psm 7 batch.nochop makebox 命令

3.点击jTessBoxEditor工具的Box Editor选项,点击下方的open选项,打开刚刚生成的langyp.font.exp0.tif文件;

同样,矫正后点击save,当所有样本图片都矫正了,这一步也就完成了。

4.生成font_properties文件(该文件没有后缀名)

在命令行执行:echo font 0 0 0 0 0 &gtfont_properties

5.生成.tr训练文件

在命令行执行: tesseract langyp.font.exp0.tif langyp.font.exp0 -l eng -psm 7 nobatch box.train

生成的文件:langyp.font.exp0.tr,langyp.font.exp0.txt

6.生成字符集文件

在命令行执行 : unicharset_extractor langyp.font.exp0.box

结果生成:unicharset文件

7.生成shape文件

在命令行执行 : shapeclustering -F font_properties -U unicharset -O langyp.unicharset langyp.font.exp0.tr

生成的文件:shapetable、langyp.unicharset

8.生成聚集字符

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值