今天是个好日子,生日了,感觉程序的力量蛮大的,这周在做一个项目,做个记录,后面备查,也有些慢慢分享出来,立个帖子
tesseract m1.tif m1 -l eng batch.nochop makebox
m1 两个名字要一致
1 生成tif 对应.box文件 tesseract m1.tif m1 -l eng batch.nochop makebox
2 jTessBoxEditor修改
3 tesseract m1.tif m1 nobatch box.train生成.tr文件
4 unicharset_extractor m1.box生成字符集
5 生成字符特征文件
里面写入:
例如 m1 0 0 0 0 0
无后缀文件名font可以其他的名字
6 mftraining -F font -U unicharset m1.tr
生成几个文件加 m1.前缀 生成文件有inttemp pffmtable shapetable unicharset
7 cntraining m1.tr 聚集tesseract识别的文件 生成了normproto加前缀 m1.
8 combine_tessdata m1. 合并生成字典文件
9 测试 tesseract *.jpg *.txt -l m1+eng