概述
我们在写爬虫脚本时,经常会遇到验证码阻碍我们的道路。特别是这个网站的资料又非常重要,所以不得不研究一下怎么让机器自动识别。对于一些不太复杂的验证码,我们可以直接用现成的开源引擎Tesseract识别。
如下面的图片,数字还是很清晰,也没有什么偏转,字母粘连也不是很严重。在实际测试中,基本50%以上的验证码可以一次通过。
Tesseract
就是开源引擎里的执牛耳项目。起源于惠普实验室并在1984-1994
年间大力发展的Tesseract,曾一度可与商业OCR软件比肩。2005年,HP在GoogleCode
上将Tesseract开源,2006年开始由谷歌赞助,并由Ray Smith
负责该项目。
Tesseract支持的语言非常多,每种语言有相应的语言包可以下载。但是从中文的情况来看,貌似效果不是太好,识别率几乎不可商用。相关论文中提到中文的准确率在95%以上,不知道实际的测试样本是怎么样的。英文准确率还不错,可以直接拿来用。这也是为什么这篇文章只能用于简单的中英文验证码。
Tesseract 环境搭建
在Ubuntu下,你可以直接用 sudo apt-get install tesseract
来安装。也可以按照这里的步骤编译安装。【tesseract compiling】语言包一般放在 /usr/local/share/tessdata
或者 /usr/share/tessdata
中