Tesseract-OCR3.0语言库训练步骤

最新推荐文章于 2024-08-30 11:01:21 发布

Nora_king

最新推荐文章于 2024-08-30 11:01:21 发布

阅读量855

点赞数

http://hi.baidu.com/kuliuheng/blog/item/aae32d32216a9fcda2cc2ba1.html

前两天，一个学妹让我帮忙看看她在训练Tesseract-OCR3.0语言库时，到底哪里出了问题。结果，之前还没听说过Tesseract是个什么东西的我，随着对这个陌生开源软件的了解，竟然产生了不小的兴趣。

经过一晚上对这个开源项目的了解，算是大致了解了这个软件是怎么训练语言库以及识别的。现在把训练的过程记录下来，说不定对自己将来或者别人也有一定的帮助。

当然了，要想彻底搞清楚这款开源OCR软件的来龙去脉，还得看Google开源项目的说明：http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3，在这里我就不过多详细的说明了。

要训练一个新的语言（自定义语言或者某种自然语言都可以）对应的traineddata文件，需要产生下列过程文件：

? lang.config

? lang.unicharset

? lang.unicharambigs

? lang.inttemp

? lang.pffmtable

? lang.normproto

? lang.punc-dawg

? lang.word-dawg

? lang.number-dawg

? lang.freq-dawg

在这八个文件中，红色标示的是必须的，其他的文件可选。当这些文件都准备好之后，再使用combine_tessdata进行最后的合并工作，生成lang.traineddata ，这个文件就是最终训练出来语言库。下面再来说一下如何产生上述的文件：

1、获取一个训练图片（*.tif）

2、产生相应的Box文件（*.box）

tesseract lang.fontname.number.tif lang.fontname.number batch.nochop makebox

这一步产生对应的lang.fontname.number.box 文件。

编辑该Box文件，校正识别出来的字符，如果单个字符识别成了两个或者多个字符，则要将这些行进行合并。前两项坐标取最小值，后两项坐标取最大值。

3、产生字符特征文件（*.tr）

tesseract lang.fontname.number.tif lang.fontname.number nobatch box.train

这一步产生三个文件：

(1) tesseract.log记录该步骤执行结果；

(2) lang.fontname.number.txt；

(3) lang.fontname.number.tr为特征文件。

4、计算字符集（unicharset）

unicharset_extractor lang.fontname.number_1.box

这一步产生字符集文件unicharset。

5、聚集字符特征（inttemp、pffmtable、normproto）

mftraining -U unicharset -O lang.unicharset lang.fontname.number_1.tr

使用上一步产生的字符集文件unicharset，来生成当前新语言的字符集文件lang.unicharset。同时还会产生图形原型文件inttemp和每个字符所对应的字符特征数文件pffmtable。附带还会产生Microfeat文件，但是并没有用到该文件。

cntraining lang.fontname.number_1.tr

这一步产生字符形状正常化特征文件normproto。

6、产生字典文件（可选）

wordlist2dawg frequent_words_list lang.freq-dawg lang.unicharset

wordlist2dawg words_list lang.word-dawg lang.unicharset

frequent_words_list存放出现频率较高的字符；words_list存放所有字符集，至少一个字符。每个字符占一行。这样可以产生对应语言的字典文件了，共五个。

同样的方法产生punc-dawg文件（符号）、number-dawg文件（数字）以及user-words文件（用户自定义字符，通常为空）。

7、模糊字集校正文件（unicharambigs）（可选）

例如某unicharambigs文件内容如下：

2 ' ' 1 " 1

1 m 2 r n 0

3 i i i 1 m 0

每一行表示一条校正信息：第一个数字表示接下来有几个字符，第二个数字也表示后面跟有几个字符，最后一个数字表示校正动作的类型。

在这个例子中，第一行表示将连续的两个单引号（’）合并成一个双引号（”），最后的数字1表示强制转换；第二行、第三行表示一个字母m有可能被识别成两个字母’r’’n’，也有可能识别成连续三个字母’i’。

这个校正文件可以为空或者不存在。

8、合并训练文件（*.traineddata）

combine_tessdata lang.

这是最后一步，产生训练结果文件lang.traineddata。

注意这一步控制台执行的结果显示，有0-9项指示了文件的地址，这十个地址对应了文章前面所提到的十项所需要的文件。其中1、3、4、5这四项（从0开始排序）是必须的，缺少一项（显示为-1）都将不算成功。

9、测试

tesseract image.tif output -l lang

使用我们刚刚训练好的lang.traineddata文件来识别图形。识别出来的结果将会存放在output.txt文件中。

特别说明：

在训练的过程中，初次接触的人容易犯一些小错误，这些错误虽然小，但很可能让你陷入困惑和痛苦中。那位师妹就是因为小问题困惑不已才找我帮忙的。下面简单的罗列一下几点需要注意的地方：

（1）前面提到的lang可以被你想要的任何字符串代替，主要是为了给你训练的库取个名字。

（2）第二步产生的Box文件，需要手动修改，一定要以Unicode模式保存。修改的时候要注意方法和含义，详细的说明Google原文中有说明。

（3）第五步程序自动产生的文件是只有扩展名的，需要你自己手动将名字改成前缀一致。后面产生的可选文件也依照此法操作。

（4）所有的这些文件都准备好了之后，需要放到同一目录下，执行combine_tessdata进行合并的时候，注意要切换到文件所在的目录执行，否则将会报错，提示找不到文件。

（5）合并成功之后，要记得将训练好的文件（lang.traineddata）放到程序的tessdata子目录下，否则测试就会提示找不到语言库文件。

好了，到这里，基本上所有的问题都能解决了。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Nora_king CSDN认证博客专家 CSDN认证企业博客

码龄10年

11: 原创

122万+: 周排名

33万+: 总排名

1万+: 访问

: 等级

334: 积分

2: 粉丝

7: 获赞

4: 评论

27: 收藏

私信

关注

热门文章

分类专栏

研究杂文 1篇
Python编程 9篇
CGAL 3篇

最新评论

CCDT与CDT
aaronwxj: 请问一下博主，原始论文是？
CGAL编程实现点集的Delaunay三角剖分和Voronoi图
NULL_EOR: 请问您是用那个版本的cgal，我的在编译的时候出现无法解析外部符号__imp__gmpq
CGAL编程实现点集的Delaunay三角剖分和Voronoi图
cxkhctrl: 这不就是抄别人的么，
Tesseract-OCR3.0语言库训练步骤
pan15125284: （2）第二步产生的Box文件，需要手动修改，一定要以Unicode模式保存。修改的时候要注意方法和含义，详细的说明Google原文中有说明。请问一下，哪里有说明啊？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。