2018.5.4更新 training tesseract
由于Ubuntu下训练tesseract 教程不足,还在继续摸索。现在转用Windows下的tesseract 3.05版本(tesseract 4.0在我的win10下总是出错 还没办法解决)
- windows tesseract版本下载。
- exe安装。
- 安装完成后打开CMD输入tesseract回车出现tesseract介绍/help等,即安装成功。
命令行进入该文件目录下,输入测试命令:
tesseract test.png output_test -l eng
【语法】tesseract imagename outputbase[-l lang] [-psm pagesegmode] [configfile...]
接下来的教程见→
教程
所遇到的问题及解决方案:
1. Failed to load font_properties from font_properties
【解决】: 将命令行
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr
更改为:
mftraining -F font_properties.txt -U unicharset -O num.unicharset num.font.exp0.tr
2.Illegal short name for a feature
换下一张图片进行训练,(跳过该问题训练集)
3.ICU ERROR...
【解决】打开VS调试,选择调试→选项→调试→常规→启动源服务器支持
→符号→Microsoft符号服务器
6. jTessBoxEditor中文乱码 在setting中将字体改为宋体