1、了解常见验证码
在日常生活与工作中,在进行各类设计个人账户安全的操作时,往往需要填写各种验证码来进行验证,短信、语音、文字、问答、图片、拖拽、旋转腾挪、拼图接图...千奇百怪,各种各样,种类繁多,花样迭起!
就拿奇葩验证码鼻祖的12306来说,如今我们在12306中可以碰到各种有趣,各种类型的验证码的原因,要归功于为抢票事业做出巨大贡献的——黄牛们,它的“进化史”就是一部不断与黄牛和抢票软件“斗智斗勇”的历史。
目前我们常见的验证码,无非就是文本、图像以及音频这三大类。
而当文本验证码仍容易被机器“击破”时,图像验证码
就应运而生了。通常是会提供一些物体、动物、植物、人、风景之类的图像,让我们选择正确的图像进行标记。这就是以12306为首的图像验证码了,但是这个还不算后来图像验证码又增加了新的玩法,比如旋转图片,比如拼图以及宫格,目的还是为了对抗爬虫这些机器。
接下来是音频验证码
,这种相比前两种数量相对要小一些,主要是会给我们一段录音,里面有随机的单词或数字,有的会加一些噪音,我们基于录音输入其中听到的单词或数字,或者把它读出来。从安全性上来说,声音验证码比文本和图像等级要提升一个层级,因为机器想要听录音并分辨,这个难度会非常大。
2、验证码的处理方案
-
手动输入(input) 这种方法仅限于登录一次就可持续使用的情况
-
图像识别引擎解析 使用光学识别引擎处理图片中的数据,目前常用于图片数据提取,较少用于验证码处理
-
打码平台 爬虫常用的验证码解决方案
3、图像识别引擎
OCR,即Optical C