[以 前写过一个刷校内网的人气的工具,Java的(以后再也不行Java程序了),里面用到了验证码识别,那段代码不是我自己写的:-)校内的验证是完全单色没有任何干挠的验证码,识
PyTesser
PyTesser is an Optical Character Recognition module for Python. It takes as input an image or image file and outputs a string.
PyTesser uses the Tesseract OCR engine, converting images to an accepted format and calling the Tesseract executable as an external script. A Windows executable is provided along with the Python scripts. The scripts should work in other operating systems as well.
[陆陆续续的学习了验证码的灰度、二值化、分割等方法,还了解了机器学习中最基本的3个分类方式——KNN、决策树、朴素贝叶斯。基于这些,今天结合这些工具来写一个简单的验
这是官网的介绍,用法很简单,下载,解压,比如E:\QQDownload\pytesser_v0.0.1
打开命令行,cd到当前目录,运行python,
>>> from pytesser import *
>>> image = Image.open('fnord.tif') # Open image object using PIL
>>> print image_to_string(image) # Run tesseract.exe on image
fnord
>>> print image_file_to_string('fnord.tif')
fnord
先试了下自带的png图片,确实识别出来了,然后又去12306上弄下来验证码图片,直接哑火了,哎,用起来确实很简单,可是这渣一样的识别率。。。。。
[在上一篇文章中,我们使用sklearn对验证码进行了识别,为了提高识别率,今天来进行进一步优化。 观察验证码后,发现还可以对其进行旋转处理,这个验证码旋转角度在-30~30