tesseract-OCR训练字符详细操作及遇到问题

最新推荐文章于 2024-07-08 09:38:15 发布

好样的小李子

最新推荐文章于 2024-07-08 09:38:15 发布

阅读量1.2k

点赞数

分类专栏： java 文章标签： tesseract OCR

本文链接：https://blog.csdn.net/u012839245/article/details/100576236

版权

java 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

tesseract-OCR训练

参考文章：https://blog.csdn.net/wsbeibei/article/details/28632507
https://www.cnblogs.com/zhang-ke/p/7606572.html

安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的traineddata放入tessdata中

1. Merge样本文件，生成tif文件

   打开jTessBoxEditor -> Toools -> Merge TIFF        
     ![在这里插入图片描述](https://img-blog.csdnimg.cn/20190906170859475.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTI4MzkyNDU=,size_16,color_FFFFFF,t_70)

2.生成box文件

打开 cmd，进入tif目录下，执行如下命令：
tesseract.exe langyp.font.exp0.tif langyp.font.exp0 batch.nochop makebox
langyp.font.exp0为上一步保存的tif自定义名称

3.对样本文件进行矫正

jTessBoxEditor -> Box Editor -> Open 打开上一步生成的box文件
呃，这里需要单张单张的人工校验

尝试过将图片分割成单个字符一张图片，但识别不到任何文字

4.生成tr训练文件

esseract.exe langyp.font.exp0.tif langyp.font.exp0 nobatch box.train
若存在某张图片识别不到文本时，需要将该图从样本库里删除，否则在生成文件时，会如下错误
在这里插入图片描述
tip：删除后，需要重新生成box库，即重新校验，可在第执行完第一步后，先执行这一步，看看是否存在此类文件。

5.若成功生成tr文件后，以下步骤可写成一个bat文件，直接执行即可。

unicharset_extractor.exe langyp.font.exp0.box mftraining.exe -F font_properties -U unicharset langyp.font.exp0.tr cntraining.exe langyp.font.exp0.tr rename normproto langyp.font.exp0.normproto rename unicharset langyp.font.exp0.unicharset rename inttemp langyp.font.exp0.inttemp rename pffmtable langyp.font.exp0.pffmtable rename shapetable langyp.font.exp0.shapetable pause combine_tessdata.exe langyp.font.exp0. pause

最后生成traineddata文件，复制及重命名至tessdata中即可使用。