训练tesseract-ocr3.00字典的步骤

最新推荐文章于 2023-02-04 18:21:25 发布

置顶天上飘云

最新推荐文章于 2023-02-04 18:21:25 发布

阅读量7.8k

点赞数

分类专栏： tesseract-ocr 文章标签： linux 工具 windows 语言

本文链接：https://blog.csdn.net/DYFleoo/article/details/6959591

版权

tesseract-ocr 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前提条件：
tesseract-ocr3.00正常安装
训练步骤：
1.将要加入字典的图片转化为.tif格式的图片，文件的命名规则为[lang].[fontname].exp[num].tif, 例如：eng.oms261.g4.tif，注意此处[fontname]命名不能相同。再根据.tif格式图片生成.box文件，命令：
tesseract eng.oms261.g4.tif eng.oms261.g4 batch.nochop makebox
2.纠正.box文件中的错误，这里可以使用工具，有不同的工具，根据环境不同选择，Linux下推荐使用 moshPyTT(下载地址，http://code.google.com/p/moshpytt/)
3.根据生成的.box文件生成.tr文件。命令：
tesseract eng.oms261.g4.tif eng.oms261.g4 nobatch box.train
4.生成unicharset文件。命令：
unicharset_extractor eng.oms261.g4.box ...
注意：从5～9步骤必须在windows环境下进行，Linux下不支持，这是Tesseract-3.00的BUG.
5.生成 pffmtable, inttemp文件. 命令：
mftraining -U unicharset -O lang.unicharset eng.oms261.g4.tr ...
6.生成 normproto文件。命令：
cntraining eng.oms261.g4.tr ...
7.将pffmtable，inttemp，normproto文件加前缀，手动改名为: eng.pffmtable，eng.inttemp，eng.normproto, 前缀名与前面的命名保持一致。
8.字典文件和模糊校正文件可以提高OCR的识别率，我们可以获得官方的eng.traindata的此文件，命令：
combine_tessdata -u tessdata/eng.traineddata path/eng.
此时语言包的所有文件都解压了，挑出我们需要的
eng.unicharambigs
eng.punc-dawg
eng.word-dawg
eng.number-dawg
eng.freq-dawg
这些文件放到我们训练字典的那个路径.
9.合并训练文件，命令：
combine_tessdata eng.
得到我们最终训练的文件

天上飘云

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
训练tesseract-ocr3.00字典的步骤

前提条件：tesseract-ocr3.00正常安装训练步骤：1.将要加入字典的图片转化为.tif格式的图片，文件的命名规则为[lang].[fontname].exp[num].tif, 例如：eng.oms261.g4.tif，注意此处[fontname]命名不能相同。再根据.tif格式图片生成.box文件，命令： tesseract eng.oms261.g4.tif en
复制链接

扫一扫

专栏目录