tesseract-OCR训练
参考文章:https://blog.csdn.net/wsbeibei/article/details/28632507
https://www.cnblogs.com/zhang-ke/p/7606572.html
安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的traineddata放入tessdata中
1. Merge样本文件,生成tif文件
打开jTessBoxEditor -> Toools -> Merge TIFF
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190906170859475.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTI4MzkyNDU=,size_16,color_FFFFFF,t_70)
2.生成box文件
打开 cmd,进入tif目录下,执行如下命令:
tesseract.exe langyp.font.exp0.tif langyp.font.exp0 batch.nochop makebox
langyp.font.exp0为上一步保存的tif自定义名称
3.对样本文件进行矫正
jTessBoxEditor -> Box Editor -> Open 打开上一步生成的box文件
呃,这里需要单张单张的人工校验
尝试过将图片分割成单个字符一张图片,但识别不到任何文字
4.生成tr训练文件
esseract.exe langyp.font.exp0.tif langyp.font.exp0 nobatch box.train
若存在某张图片识别不到文本时,需要将该图从样本库里删除,否则在生成文件时,会如下错误
tip:删除后,需要重新生成box库,即重新校验 ,可在第执行完第一步后,先执行这一步,看看是否存在此类文件。
5.若成功生成tr文件后,以下步骤可写成一个bat文件,直接执行即可。
unicharset_extractor.exe langyp.font.exp0.box mftraining.exe -F font_properties -U unicharset langyp.font.exp0.tr cntraining.exe langyp.font.exp0.tr rename normproto langyp.font.exp0.normproto rename unicharset langyp.font.exp0.unicharset rename inttemp langyp.font.exp0.inttemp rename pffmtable langyp.font.exp0.pffmtable rename shapetable langyp.font.exp0.shapetable pause combine_tessdata.exe langyp.font.exp0. pause
最后生成traineddata文件,复制及重命名至tessdata中即可使用。