VS2013上编译并使用Tesseract3.0.3.中文识别技术

最新推荐文章于 2025-09-24 15:40:01 发布

原创

最新推荐文章于 2025-09-24 15:40:01 发布 · 5.6k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#Tesseract #中文识别 #开源库

本文详细介绍了如何使用Tesseract库进行中文字符识别，并提供了中文识别库的编译方法及提高识别率的技巧。包括下载、编译、训练以及提升中文识别准确性的策略。

我们有时候会进行中文识别功能。比如识别验证码，比如通过关键字符串来定位某些控件。这都需要识别图片上的字符。对于英文字符，现在很多开源库都能够很好的进行识别，效果显著。但是对于中文识别，库非常少，而且准确度特别差。国内有很多工具能够很好识别中文，但都是收费的。而免费的开源库中，Tesseract是性价比最好的(注意3.0以上版本才支持中文识别)。虽然这个库识别率不高，但这个强大的库增加了自我学习的功能，可以训练库的中文识别能力。同时，我们可以通过其他的手段，比如文本要求必须使用印刷体，对图片进行灰度化，二值化，去除干扰区域来大幅提升中文的识别能力。

一。编译Tesseract库

现在Tesseract官网上都可以下载。一种是下载一个安装程序，会安装到你电脑上，可以直接使用命令行来识别图片。但是你看不到源代码。另一个是下载源代码，自己进行编译，这样方便全面的去了解整个库的内容。但是编译Tesseract并不容易，首先这个库依赖了许多其他库，这些都要下载下来，初学者很容易搞混哪个才是真正的Tesseract库。其次，下载这些内容地址不一定在一起，需要去找。官网有好多页面的跳转，跳几次就糊涂了。

最新版的Tesseract库要求最新版的Leptonica，这是个处理和分析图像的C开源库。同时这个库又要求最新版的zlib库，libpng库，libtiff库，libjpeg库，giflib库。Tesseract会提供一个已经编译过的Leptonica库，当然其他的依赖库自然也包含了。这样你就不会自己去设置VS了，因为比较繁琐。在Tesseract官网上，都有一步在C盘放置include和lib这两个文件，其实这里面就是这些依赖库的内容。

电脑上安装Git，安装SVN，安装VS2013

创建一个用来放置Tesseract工程的目录，我是在E盘创建了一个文件夹TesseractProject。在该文件夹上右键点击Git Bash Here，进入命令行。从Github上克隆Tessaeract所依赖的库：

git clone git://github.com/pvorb/tesseract-vs2013.git

最低0.47元/天解锁文章