1.将jpg文件转换为tif文件(tif文件名,例如:langyp.font.exp0.tif【jpg转换为tif可用工具jTessBoxEditor】);
2.用tif文件生成box文件:执行
tesseract langyp.font.exp0.tif langyp.font.exp0 -l eng -psm 7 batch.nochop makebox 命令
3.点击jTessBoxEditor工具的Box Editor选项,点击下方的open选项,打开刚刚生成的langyp.font.exp0.tif文件;
同样,矫正后点击save,当所有样本图片都矫正了,这一步也就完成了。
4.生成font_properties文件(该文件没有后缀名)
在命令行执行:echo font 0 0 0 0 0 >font_properties
5.生成.tr训练文件
在命令行执行: tesseract langyp.font.exp0.tif langyp.font.exp0 -l eng -psm 7 nobatch box.train
生成的文件:langyp.font.exp0.tr,langyp.font.exp0.txt
6.生成字符集文件
在命令行执行 : unicharset_extractor langyp.font.exp0.box
结果生成:unicharset文件
7.生成shape文件
在命令行执行 : shapeclustering -F font_properties -U unicharset -O langyp.unicharset langyp.font.exp0.tr
生成的文件:shapetable、langyp.unicharset
8.生成聚集字符