前情回顾
上一篇文章大麦网滑块验证码自动识别,主要是针对大麦网最近新增加的滑块验证码如何进行处理、自动识别进行了讲解,本篇文章在上述文章的基础上,更详细进行了总结和复盘,针对后面其他类似含有验证码的网站,可以直接套用。
下面就详细说下。
滑块验证码介绍
有爬虫,自然就有反爬虫,两者相辅相成,相互促进。
最早的,从最简单的检测 UserAgent 或者 Referrer 等头部,到限制访问频率封 IP 等手段,到关键路径的行为识别,到前端页面的混淆和加密,到目前最流行的验证码技术,可以说,为了防止网络上大量爬虫的肆意妄为,特别是一些垃圾机器人,技术人员真的是绞尽脑汁。
但是道高一尺魔高一丈,直到目前为止,也并没有完全无懈可击的反爬方案。
目前最流行的反爬技术是验证码,几乎所有网站的注册页面都会用到验证码技术,为了防止爬虫自动注册,批量生成垃圾账号。验证码技术从一诞生,就是黑客们最感兴趣的话题,验证码的英文为 CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart),翻译成中文就是 全自动区分计算机和人类的公开图灵测试,它是一种可以区分用户是计算机还是人的测试,只要能通过 CAPTCHA 测试,该用户就可以被认为是人类。
使用计算机模拟人类的行为一直以来都是黑客们最热衷的事