tesseract字库训练踩到的坑

推荐博客 https://blog.csdn.net/sylsjane/article/details/83751297 写的超级详细

推荐博客https://blog.csdn.net/qq_37674858/article/details/80340914 对于中文字库训练写的不错

推荐博客 https://www.cnblogs.com/yanjj/p/7998980.html 有关于字库合并的操作

 

花费了两天时间,修正了20张图片,进行识别库训练时·,他么的各种报错,各种坑,都快吐血了。。。。

1   缺少icuuc63.dll

64位的版本存在的问题,换成32位就不报这个错误了

 2 生成tr文件报错

Error:Assert failed:in file ../../../../../src/ccmain/applybox.cpp, line 317

多张图片用jTessBoxEditor合成一张 tif 格式的图片,可能会报这个错,换成VietOCR.NET 合成图片之后,可以正常生成tr 文件,这他么都是什么问题??? 如果还是不能生成tr 文件,重新换张图片试试

合成图片以后,先别着急着去修正识别不准确的,先试一下看看能不能成功生成tr文件,不能等你吭哧吭哧的花费了几天时间,修正了几十张图片,结果不能成功生成tr文件,那不得哭死。。。。

 

生成box 文件 tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox 

如果使用中文字库生成box 文件, 则命令如下 

    tesseract.exe num.font.exp0.tif num.font.exp0 -l chi_sim batch.nochop  makebox

生成的box文件为num.font.exp0.box,box文件为Tesseract识别出的字符及其坐标。

生成tr 文件   tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train

生成字符集     unicharset_extractor num.font.exp0.box

生成  num.unicharset 文件   shapeclustering -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr

执行下面命令,会生成 inttemp、pffmtable、shapetable三个文件。

mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr

执行下面命令,会生成 normproto 文件。

cntraining num.font.exp0.tr

重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。

这里修改为num.inttemp、num.pffmtable、num.shapetable和num.normproto

rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable

合并训练文件:

执行下面命令,会生成num.traineddata文件。

combine_tessdata num.

 

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

www.365codemall.com

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值