近来由于工作需要,对开源的orc引擎Tesseract做了简单的应用,需求是识别网站图片电话,如locoso、koubei、qingke800等网站
针对不同的站点,采用不同的策略。简单的方法是只要对图片转格式(tif)后做一定比例的放大就可以识别(因站点而易),例如locoso的图片做200%的放大比例后,几乎可以100%识别。而对于koubei尝试了几个比例后,效果不是很理想,所以针对这个站点做了专门的训练语集,训练数据集的生成方法参见看参考链接,我做的训练语集对koubei可以达到99%多。另外针对不同的语言,tesseract有不同的训练语集,可以识别多国语言。
制作自定义的训练语集注意版本3.0有个bug,就是生成以tr结尾的文件中有科学计数表示的浮点数,程序处理会出错,可以手动处理,也可以写程序处理。据说3.0.1对修正这个bug。
识别时同时按照imagemagic做图片的转换,命令如下:
convert -compress none source.jpg dest.tif
convert dest.tif -scale 200% result.tif
对于tesseract可以通过命令行
tesseract result.tif result -l eng
tesseract result.tif result -l 自定义的训练集名称
有问题可以留言,一起解决
参考链接:
http://hi.baidu.com/kuliuheng/blog/item/aae32d32216a9fcda2cc2ba1.html