VS2013上编译并使用Tesseract3.0.3.中文识别技术

本文详细介绍了如何使用Tesseract库进行中文字符识别,并提供了中文识别库的编译方法及提高识别率的技巧。包括下载、编译、训练以及提升中文识别准确性的策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  我们有时候会进行中文识别功能。比如识别验证码,比如通过关键字符串来定位某些控件。这都需要识别图片上的字符。对于英文字符,现在很多开源库都能够很好的进行识别,效果显著。但是对于中文识别,库非常少,而且准确度特别差。国内有很多工具能够很好识别中文,但都是收费的。而免费的开源库中,Tesseract是性价比最好的(注意3.0以上版本才支持中文识别)。虽然这个库识别率不高,但这个强大的库增加了自我学习的功能,可以训练库的中文识别能力。同时,我们可以通过其他的手段,比如文本要求必须使用印刷体,对图片进行灰度化,二值化,去除干扰区域来大幅提升中文的识别能力。

一。编译Tesseract库

  现在Tesseract官网上都可以下载。一种是下载一个安装程序,会安装到你电脑上,可以直接使用命令行来识别图片。但是你看不到源代码。另一个是下载源代码,自己进行编译,这样方便全面的去了解整个库的内容。但是编译Tesseract并不容易,首先这个库依赖了许多其他库,这些都要下载下来,初学者很容易搞混哪个才是真正的Tesseract库。其次,下载这些内容地址不一定在一起,需要去找。官网有好多页面的跳转,跳几次就糊涂了。

  最新版的Tesseract库要求最新版的Leptonica,这是个处理和分析图像的C开源库。同时这个库又要求最新版的zlib库,libpng库,libtiff库,libjpeg库,giflib库。Tesseract会提供一个已经编译过的Leptonica库,当然其他的依赖库自然也包含了。这样你就不会自己去设置VS了,因为比较繁琐。在Tesseract官网上,都有一步在C盘放置include和lib这两个文件,其实这里面就是这些依赖库的内容。




电脑上安装Git,安装SVN,安装VS2013

创建一个用来放置Tesseract工程的目录,我是在E盘创建了一个文件夹TesseractProject。在该文件夹上右键点击Git Bash Here,进入命令行。从Github上克隆Tessaeract所依赖的库:

git clone git://github.com/pvorb/tesseract-vs2013.git

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值