因为组织上的需要,开始接触OCR技术。在问了Google大叔后,他告诉我去找Tesseract吧,开源界很好用的一个OCR软件。然后我就来了 :)
其实最终是需要用在手机上,但是为了最快速的熟悉一下,决定现在PC(Ubuntu)上体验一下,跑通后再寻求手机上的应用实践。
Tesseract介绍
Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀请Smith加盟,重启该项目。目前项目的许可证是Apache 2.0。该项目目前支持Windows、Linux和Mac OS 等主流平台。但作为一个引擎,它只提供命令行工具。
下载Tesseract源码
当然,如果你想直接安装也可以:
apt-get install tesseract-ocr
但是这样就无法体会源码编译的快