最近,想做一个刷票的程序,有验证码,好在验证码不是很复杂,所以就想着能不能识别。开始想用svm来分类,但是不知道怎么回事,识别率达不到要求,可能中间的某个环节没有做好。听说神经网络也很好,但是本人对神经网络不怎么熟悉。
后来到网上查找资料的时候,有人用ocr来做验证码的识别,开始觉得有点杀鸡用牛刀的感觉,但是苦于没有其他的办法,只能一试。开始想用office的ocr组件,但是发现根本就识别不了。后来发现开源的Tesseract比较好,但网站上提供的是c++的代码,个人对c++不是太熟。最后我找到了Tesseract的.net版本,下载地址如下:http://www.pixel-technology.com/freeware/tessnet2/。另外发现这个用法非常简单,注意还需要下载语言包,我这里识别的是纯字母的,所以就用英文的语言包了。另外为了提高验证率,还可以自己进行训练,由于我的需求比较简单,我就没有做这个步骤了,直接使用英文语言包了。
InitializeComponent(); ocr = new tessnet2.Tesseract(); ocr.SetVariable(“tessedit_char_whitelist“, “0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ“); ocr.Init(Application.StartupPath + @”lngeng“, “eng“, false); WebClient wc = new WebClient(); byte[] oimg = wc.DownloadData(“some url“); // 这里我地址做了隐藏,自己修改成要识别的地址吧 Bitmap bp = new Bitmap(new MemoryStream(oimg), true); pictureBox1.Image = bp; bp = ImageProcess.RemoveGreen(bp); bp = ImageProcess.ToBW(bp); pictureBox2.Image = bp; List result = ocr.DoOCR(bp, Rectangle.Empty); string txt = “”; foreach (tessnet2.Word word in result) { txt += word.Text; } textBox1.Text = txt;另外,还有一个问题,我这里先对图像进行了简单的预处理,去除干扰,转换成二值图像。不知道各位园友还有没有更好的方法。我的这种方法,对于简单的验证码,效果还不错。