参考了很多网上分享的东西,首先感谢他们。
由于最近有需求需要使用Tesseract-OCR来识别手写字符,开源的好像就好些了。
后面直接进入正题,直接说训练。
有部分网上说,要把图片转变成tif格式才来训练,其实jpg也是ok的,测试通过。
我操作的步骤如下:
1.将准备好的jpg或tif格式的图片(其他格式的尚未测试),通过jTessBoxEditor合并成一个tif格式文件。
2.生成.box文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 -l chi_sim batch.nochop makebox
保证tif文件与box文件在同一目录下。
3.文字校正:使用jTessBoxEditor来处理。
4.产生字符特征文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 nobatch box.train
5.计算字符集
unicharset_extractor zhi.normal.exp0.box
6.定义字体特征文件
font_properties.txt
我的是normal 0 0 0 0 0;
7、聚集字符特征
1) shapeclustering -F font_properties.txt -U unicharset zhi.normal.exp0.tr 注意:如果font_properties不加扩展名.txt,可能会报错
2) mftraining -F font_properties.txt -U unicharset -