推荐博客 https://blog.csdn.net/sylsjane/article/details/83751297 写的超级详细
推荐博客https://blog.csdn.net/qq_37674858/article/details/80340914 对于中文字库训练写的不错
推荐博客 https://www.cnblogs.com/yanjj/p/7998980.html 有关于字库合并的操作
花费了两天时间,修正了20张图片,进行识别库训练时·,他么的各种报错,各种坑,都快吐血了。。。。
1 缺少icuuc63.dll
64位的版本存在的问题,换成32位就不报这个错误了
2 生成tr文件报错
Error:Assert failed:in file ../../../../../src/ccmain/applybox.cpp, line 317
多张图片用jTessBoxEditor合成一张 tif 格式的图片,可能会报这个错,换成VietOCR.NET 合成图片之后,可以正常生成tr 文件,这他么都是什么问题??? 如果还是不能生成tr 文件,重新换张图片试试
合成图片以后,先别着急着去修正识别不准确的,先试一下看看能不能成功生成tr文件,不能等你吭哧吭哧的花费了几天时间,修正了几十张图片,结果不能成功生成tr文件,那不得哭死。。。。
生成box 文件 tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox
如果使用中文字库生成box 文件, 则命令如下
tesseract.exe num.font.exp0.tif num.font.exp0 -l chi_sim batch.nochop makebox
生成的box文件为num.font.exp0.box,box文件为Tesseract识别出的字符及其坐标。
生成tr 文件 tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train
生成字符集 unicharset_extractor num.font.exp0.box
生成 num.unicharset 文件 shapeclustering -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr
执行下面命令,会生成 inttemp、pffmtable、shapetable三个文件。
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr
执行下面命令,会生成 normproto 文件。
cntraining num.font.exp0.tr
重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。
这里修改为num.inttemp、num.pffmtable、num.shapetable和num.normproto
rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable
合并训练文件:
执行下面命令,会生成num.traineddata文件。
combine_tessdata num.