tesseract训练脚本
#!/bin/sh
lang=xylinklang
font=xylinkfont
#合并多张图到tif
#xylinklang.xylinkfont.exp0.tif
#生成box文件
tesseract ${lang}.${font}.exp0.tif ${lang}.${font}.exp0 -l eng -psm 7 batch.nochop makebox
#生成${font}_properties
echo ${font} 0 0 0 0 0 >${font}_properties
#生成tr训练文件
tesseract ${lang}.${font}.exp0.tif ${lang}.${font}.exp0 -l eng -psm 7 nobatch box.train
#生成unicharset字符集文件
unicharset_extractor ${lang}.${font}.exp0.box
#生成shape文件
shapeclustering -F ${font}_properties -U unicharset -O ${lang}.unicharset ${lang}.${font}.exp0.tr
#生成聚集字符特征文件
mftraining -F ${font}_properties -U unicharset -O ${lang}.unicharset ${lang}.${font}.exp0.tr
#生成字符正常化特征文件
cntraining ${lang}.${font}.exp0.tr
#重命名文件
mv normproto ${font}.normproto
mv inttemp ${font}.inttemp
mv pffmtable ${font}.pffmtable
mv unicharset ${font}.unicharset
mv shapetable ${font}.shapetable
#合并训练文件
combine_tessdata ${font}.
官方命令参考:
https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05#training-procedure