tessract-ocr 训练步骤及对应命令

1.利用.tif图片文件生成.box文件

 tesseract xi.ha.exp0.tif xi.ha.exp0 -l chi_sim batch.nochop makebox
这里chi_sim指中文,可换成相应文字

这里图片以xi.ha.exp0.tif命名

2.jTessBoxEditor工具进行修改


3.训练box 、生成字符集、等、

tesseract xi.ha.exp0.tif xi.ha.exp0 box.train
unicharset_extractor xi.ha.exp0.box
echo ha 0 0 0 0 0 >> font_properties
shapeclustering -F font_properties -U unicharset xi.ha.exp0.tr
mftraining -F font_properties -U unicharset -O xi.unicharset xi.ha.exp0.tr 
cntraining xi.ha.exp0.tr
mv inttemp xi.inttemp 
 mv pffmtable xi.pffmtable
 mv normproto xi.normproto
 mv shapetable xi.shapetable
 combine_tessdata xi.

4.拷贝已训练文件到tessract 调用文件中


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值