Tessract训练中文字库
1 样本准备。图片格式转为.tif格式;
2 合并样本图片。用jTessBoxEditor工具,将所有的样本合并为一个或多个tif文件,文件名为chi.xikai.exp0.tif [lang].[font].exp[序号].tif;
3 生成box file文件。命令行:
tesseract.exe chi.xihei.exp19.tif chi.xihei.exp19 -l chi_sim batch.nochop makebox
4 文字矫正。用jTessBoxEditor工具将生成的box文件打开,对每个字符进行手动矫正;
5定义字体特征文件。在训练之前需要创建一个名称为font_properties.txt的字体特征文件,手工建立一个文件font_properties.txt,内容如:fontname 0 0 0 0 0
6聚集字符特征。
1)shapeclustering -F font_properties.txt -U unicharset chi.黑体.exp0.tr
2)mftraining -F font_properties.txt -U unicharset -0 chi.unicharset chi.黑体.exp0.tr
3)cntraining chi.黑体.exp0.tr
7把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上chi.
8执行combine_tessdata chi.
最后把生成的chi.traineddata放到tessdata目录。
OK!