tesseract-OCR训练字符详细操作及遇到问题

tesseract-OCR训练

参考文章:https://blog.csdn.net/wsbeibei/article/details/28632507
https://www.cnblogs.com/zhang-ke/p/7606572.html

安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的traineddata放入tessdata中

1. Merge样本文件,生成tif文件
   打开jTessBoxEditor -> Toools -> Merge TIFF        
     ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190906170859475.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTI4MzkyNDU=,size_16,color_FFFFFF,t_70)
2.生成box文件

打开 cmd,进入tif目录下,执行如下命令:
tesseract.exe langyp.font.exp0.tif langyp.font.exp0 batch.nochop makebox
langyp.font.exp0为上一步保存的tif自定义名称

3.对样本文件进行矫正

jTessBoxEditor -> Box Editor -> Open 打开上一步生成的box文件
呃,这里需要单张单张的人工校验

尝试过将图片分割成单个字符一张图片,但识别不到任何文字

4.生成tr训练文件

esseract.exe langyp.font.exp0.tif langyp.font.exp0 nobatch box.train
若存在某张图片识别不到文本时,需要将该图从样本库里删除,否则在生成文件时,会如下错误
在这里插入图片描述
tip:删除后,需要重新生成box库,即重新校验 ,可在第执行完第一步后,先执行这一步,看看是否存在此类文件。

5.若成功生成tr文件后,以下步骤可写成一个bat文件,直接执行即可。

unicharset_extractor.exe langyp.font.exp0.box mftraining.exe -F font_properties -U unicharset langyp.font.exp0.tr cntraining.exe langyp.font.exp0.tr rename normproto langyp.font.exp0.normproto rename unicharset langyp.font.exp0.unicharset rename inttemp langyp.font.exp0.inttemp rename pffmtable langyp.font.exp0.pffmtable rename shapetable langyp.font.exp0.shapetable pause combine_tessdata.exe langyp.font.exp0. pause

最后生成traineddata文件,复制及重命名至tessdata中即可使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值