Tesseract-OCR3.0使用

    近来由于工作需要,对开源的orc引擎Tesseract做了简单的应用,需求是识别网站图片电话,如locoso、koubei、qingke800等网站

    针对不同的站点,采用不同的策略。简单的方法是只要对图片转格式(tif)后做一定比例的放大就可以识别(因站点而易),例如locoso的图片做200%的放大比例后,几乎可以100%识别。而对于koubei尝试了几个比例后,效果不是很理想,所以针对这个站点做了专门的训练语集,训练数据集的生成方法参见看参考链接,我做的训练语集对koubei可以达到99%多。另外针对不同的语言,tesseract有不同的训练语集,可以识别多国语言。

制作自定义的训练语集注意版本3.0有个bug,就是生成以tr结尾的文件中有科学计数表示的浮点数,程序处理会出错,可以手动处理,也可以写程序处理。据说3.0.1对修正这个bug。

识别时同时按照imagemagic做图片的转换,命令如下:

convert -compress none source.jpg dest.tif

convert  dest.tif -scale 200% result.tif

 

对于tesseract可以通过命令行

tesseract  result.tif result -l eng

tesseract result.tif result  -l 自定义的训练集名称

 

有问题可以留言,一起解决

 

参考链接:

http://hi.baidu.com/kuliuheng/blog/item/aae32d32216a9fcda2cc2ba1.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值