tesseract OCR的多语言,多字体字符识别

识别多种字体、多种语言的字符,在实际应用中是很常见的问题。

经过测试,及查看tesseract3.01的源码,tesseract 3.01版本是不支持多语言、多种字体OCR识别的。
tesseract3.01版本不支持新训练的数据,加入原有字符集,并不支持多个训练库的联合使用方式。


如何利用tesseract进行多语言或多字体识别哪?

一种方法是自己训练字符集,将所有的字体、语言的训练数据放入一个训练数据文件内。这种方法需要庞大的训练样本数据,工作量大,而且舍弃原有的google的训练库,实在是太可惜了。


另外一种方法就是升级tesseract到3.02版本。目前3.02版本还没有release,需要自行下载源码,编译,生成。tesseract3.02支持多个训练库联合使用的方式,这样就能支持多语言、多字体识别,并且tesseract3.02版本的固有数据集应该增加了大量的样本,因为其体积比3.01版本的数据文件大了很多。


tesseract多语言识别的原理及算法在文章Adapting the Tesseract Open Source OCR Engine for Multilingual OCR有专门的介绍。这里记录下自己对这篇文章的理解。


OCR字符识别的热点趋势:
拉丁文-> 中文、日文、韩文 -> 阿拉伯文 -> 印度语
这几种语言字符有各自的特征。


汉字、日文:有一些相同文字,但文字有上千种形状结构。
韩文:自己特有的文字结构,而且数量更多。
阿拉伯文:字母都连起来书写,且字母
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 11
    评论
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值