Python requests 网页模拟登录自动读取验证码

自动化测试分享

于 2023-12-08 21:40:01 发布

阅读量2.6k

点赞数 33

分类专栏：面试软件测试职场经验文章标签： python c++ 开发语言职场和发展程序人生学习自动化测试

本文链接：https://blog.csdn.net/2301_76387166/article/details/134887665

版权

本文探讨了网页验证码的原理，重点介绍Google的reCAPTCHA发展历程，包括各个版本的特点，以及验证码识别在爬虫中的挑战。同时，通过实例展示了如何使用Python进行基础验证码识别，并强调了相关技术和注意事项。

摘要由CSDN通过智能技术生成

网页验证码，即“网络全自动区分计算机和人类的图灵测试”（Completely Automated Public Turing test to tell Computers and Humans Apart, CAPTCHA），是一种用于网站安全的常见措施。它的主要目的是区分真实用户和自动化程序（如爬虫），以防止恶意软件滥用或执行自动化操作。验证码的形式多样，包括文字、数字、图形或其组合，其中以四位英文和数字组合的验证码最为普遍。在网络爬虫技术中，验证码识别代表着一项重大挑战，因为其设计初衷就是要抵抗自动化工具的识别和解析。

基本类型

文本验证码：显示随机生成的字母和数字组合。这些字符可能被扭曲、旋转或以不同颜色显示，以防止自动化工具识别。
图像验证码：要求用户识别图片中的特定对象，如交通标志、车辆、店铺等。
逻辑验证码：提出简单问题或谜题，例如数学问题、字谜或智力问题。
行为验证：分析用户的行为特征，如鼠标移动、滚动或点击模式，判断用户是否为真实人类。
No CAPTCHA reCAPTCHA：Google 开发的一种验证码，用户只需勾选“我不是机器人”复选框，系统会自动进行风险分析。

Google 的 CAPTCHA 是一种广泛使用的验证码服务，被称为 reCAPTCHA。它是为了提高网站的安全性和用户体验而设计的，旨在区分人类用户和自动化程序（如网络爬虫）。Google 的 reCAPTCHA 经历了几代的发展，每一代都带来了新的特点和改进。

reCAPTCHA 的几个主要版本：

reCAPTCHA v1：

最初的版本，展示了扭曲的文字，并要求用户输入这些文字以证明他们不是机器人。

由于易读性问题和自动化技术的进步，这个版本已被淘汰。

reCAPTCHA v2：

“我不是机器人”复选框（No CAPTCHA reCAPTCHA）：用户只需勾选一个复选框即可完成验证。系统会根据用户的行为和环境变量自动进行风险评估。

图像挑战：如果系统怀疑用户可能不是人类，它会提出一个图像识别的挑战，要求用户从一系列图片中选择符合特定标准的图片。

reCAPTCHA v3：

这个版本完全不同于以往，它运行在背景中，对用户行为进行实时分析，以给出一个分数表示用户的可能性是人类还是机器人。

网站管