Tesseract-OCR3.0使用

最新推荐文章于 2023-01-30 10:58:21 发布

jingxinren

最新推荐文章于 2023-01-30 10:58:21 发布

阅读量6.2k

点赞数

分类专栏：软件使用点滴文章标签：语言引擎电话工作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jingxinren/article/details/6108288

版权

软件使用点滴专栏收录该内容

2 篇文章 0 订阅

订阅专栏

近来由于工作需要，对开源的orc引擎Tesseract做了简单的应用，需求是识别网站图片电话，如locoso、koubei、qingke800等网站

针对不同的站点，采用不同的策略。简单的方法是只要对图片转格式（tif）后做一定比例的放大就可以识别（因站点而易），例如locoso的图片做200%的放大比例后，几乎可以100%识别。而对于koubei尝试了几个比例后，效果不是很理想，所以针对这个站点做了专门的训练语集，训练数据集的生成方法参见看参考链接，我做的训练语集对koubei可以达到99%多。另外针对不同的语言，tesseract有不同的训练语集，可以识别多国语言。

制作自定义的训练语集注意版本3.0有个bug，就是生成以tr结尾的文件中有科学计数表示的浮点数，程序处理会出错，可以手动处理，也可以写程序处理。据说3.0.1对修正这个bug。

识别时同时按照imagemagic做图片的转换，命令如下：

convert -compress none source.jpg dest.tif

convert dest.tif -scale 200% result.tif

对于tesseract可以通过命令行

tesseract result.tif result -l eng

tesseract result.tif result -l 自定义的训练集名称

有问题可以留言，一起解决

参考链接：

http://hi.baidu.com/kuliuheng/blog/item/aae32d32216a9fcda2cc2ba1.html

http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。