本文参考http://blog.csdn.net/zhoushuyan/archive/2010/10/18/5948289.aspx#1567946实现,在这里感谢该文章的作者。
当我浏览http://code.google.com/p/tesseract-ocr并下载了几个文件下来之后顿时感到一头雾水,不知该如何下手。网上看到有人在linux操作系统下的实现,
如:
利用开源程序(ImageMagick+tesseract-ocr)实现图像验证码识别
但却很少看到在windows下的相关文章介绍。
接下来我将一步步讲述如何采用tesseract-ocr识别含有中文的图片。
1、下载tesseract-ocr(注意3.0版本之后才支持中文的识别)
2、安装tesseract-ocr
解压缩,双击 tesseract-ocr-setup-3.00.exe 即可根据提示一步步安装,本人安装的目录是:D:/Program Files/Tesseract-OCR
在该目录下可看到tesseract.exe文件,这就是我们后面程序中会调用到的运行进程。
3、自定义安装语言包
D:/Program Files/Tesseract-OCR目录下找到/tessdata目录,其是用来存放语言包,可把