今天尝试了google的一个用于图片文字识别的Tesseract-ocr,我将它用于识别验证码。结果惨不忍睹。
首先你需要在github上获取当前最新的tesseract-3.04.00.tar
https://github.com/tesseract-ocr/tesseract
下载、解压后找到vs2010文件夹
如图用visual studio打开tesseract.sln
如图然后在程序包管理器控制台中输入“Install-Package Tesseract”
(程序包管理器控制台 在 工具-》NuGet包管理器-》程序包管理器控制台)在回到vs2010文件夹下,就会发现多了几个文件夹,其中packages文件夹就是我们需要的。
如图
其中Tesseract.dll就是我们可以直接引用的。在我的项目中添加引用Tesseract.dll,并添加下列代码