最新居然还有比12306还难的验证码网站？看我Python一一破解它!(1)，阿里+头条+抖音+百度+蚂蚁+京东面经

前端小雪球

于 2024-05-14 03:38:05 发布

阅读量839

点赞数 10

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/m0_58397123/article/details/138830308

版权

程序员专栏收录该内容

510 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

API 文档可以参考这里：http://docs.yescaptcha.365world.com.cn/

经过 API 文档可以看到使用的时候可以配置如下参数：

| 参数名 | 是否必须 | 说明 |

| — | — | — |

| token | 是 | 请在个人中心获取 (Token) |

| siteKey | 是 | ReCaptcha SiteKey （固定参数） |

| siteReferer | 是 | ReCaptcha Referer （一般也为固定参数） |

| captchaType | 否 | ReCaptchaV2(默认) / ReCaptchaV3 |

| siteAction | 否 | ReCaptchaV3 选填 Action动作默认verify |

| minScore | 否 | ReCaptchaV3 选填最小分数（0.1-0.9） |

这里就有三个关键信息了：

token：就是刚才我们在 YesCaptcha 上复制下来的参数
siteKey：这个是 ReCAPACHA 的标志字符串，稍后我们会演示怎么找。
siteReferer，一般是 ReCAPTCHA 的来源网站的 Referer，比如对于当前的案例，该值就是 https://www.google.com/recaptcha/api2/demo

那 siteKey 怎么找呢？其实很简单，我们看下当前 ReCAPTCHA 的 HTML 源码，从源码里面找一下就好了：

这里可以看到每个 ReCAPTCHA 都对应一个 div，div 有个属性叫做 date-sitekey，看这里的值就是：

6Le-wvkSAAAAAPBMRTvw0Q4Muexq9bi0DJwx_mJ-

好，万事俱备了，只差代码了！

开工

–

我们就用最简单 requests 来实现下吧，首先把常量定义一下：

TOKEN = ‘50a07xxxxxxxxxxxxxxxxxxxxxxxxxf78’ # 请替换成自己的TOKEN

REFERER = ‘https://www.google.com/recaptcha/api2/demo’

BASE_URL = ‘http://api.yescaptcha.365world.com.cn’

SITE_KEY = ‘6Le-wvkSAAAAAPBMRTvw0Q4Muexq9bi0DJwx_mJ-’ # 请替换成自己的SITE_KEY

这里我们定义了这么几个常量：

TOKEN：就是网站上复制来的 token
REFERER：就是 Demo 网站的链接
API_BASE_URL：就是 YesCaptcha 的 API 网址
SITE_KEY：就是刚才我们找到的 data-sitekey

然后我们定义一个创建任务的方法：

def create_task():

url = f"{BASE_URL}/v3/recaptcha/create?token={TOKEN}&siteKey={SITE_KEY}&siteReferer={REFERER}"

try:

response = requests.get(url)

if response.status_code == 200:

data = response.json()

print(‘response data:’, data)

return data.get(‘data’, {}).get(‘taskId’)

except requests.RequestException as e:

print(‘create task failed’, e)

这里就是调 API 来创建任务，没什么好说的。

如果创建成功之后会得到一个 task_id，接下来我们就需要用这个 task_id 来轮询查看任务的状态，定义如下的这么一个方法：

def polling_task(task_id):

url = f"{BASE_URL}/v3/recaptcha/status?token={TOKEN}&taskId={task_id}"

count = 0

while count < 120:

try:

response = requests.get(url)

if response.status_code == 200:

data = response.json()

print(‘polling result’, data)

status = data.get(‘data’, {}).get(‘status’)

print(‘status of task’, status)

if status == ‘Success’:

return data.get(‘data’, {}).get(‘response’)

except requests.RequestException as e:

print(‘polling task failed’, e)

finally:

count += 1

time.sleep(1)

这里就是设置了最长轮询次数 120 次，请求的 API 就是查询任务状态的 API，会得到一个任务状态的结果，如果结果是 Success，那就证明任务成功了，解析其中的 response 结果就是验证码破解之后得到的 token。

两个方法调用一下：

if __name__ == ‘__main__’:

task_id = create_task()

print(‘create task successfully’, task_id)

response = polling_task(task_id)

print(‘get response:’, response[0:40]+‘…’)

运行结果类似如下：

response data: {‘status’: 0, ‘msg’: ‘ok’, ‘data’: {‘taskId’: ‘1479436991’}}

create task successfully 1479436991

polling result {‘status’: 0, ‘msg’: ‘ok’, ‘data’: {‘status’: ‘Working’}}

status of task Working

polling result {‘status’: 0, ‘msg’: ‘ok’, ‘data’: {‘status’: ‘Working’}}

status of task Working

polling result {‘status’: 0, ‘msg’: ‘ok’, ‘data’: {‘status’: ‘Working’}}

status of task Working

polling result {‘status’: 0, ‘msg’: ‘ok’, ‘data’: {‘status’: ‘Success’, ‘response’: ‘03AGdBq27-ABqvNmgq96iuprN8Mvzfq6_8noknIed5foLb15oWvWVksq9KesDkDd7dgMMr-UmqULZduXTWr87scJXl3djhl2btPO721eFAYsVzSk7ftr4uHBdJWonnEemr9dNaFB9qx5pnxr3P24AC7cCfKlOH_XARaN4pvbPNxx_UY5G5fzKUPFDOV14nNkCWl61jwwC0fuwetH1q99r4hBQxyI6XICD3PiHyHJMZ_-wolcO1R9C90iGQyjzrSMiNqErezO24ODCiKRyX2cVaMwM9plbxDSuyKUVaDHqccz8UrTNNdJ4m2WxKrD9wZDWaSK10Ti1LgsqOWKjKwqBbuyRS_BkSjG6OJdHqJN4bpk_jAcPMO13wXrnHBaXdK4FNDR9-dUvupHEnr7QZEuNoRxwl8FnO2Fgwzp2sJbGeQkMbSVYWdAalE6fzJ8NwsFJxCdDyeyO817buBtvTJ4C06C1uZ92fpPTeYGJwbbicOuqbGfHNTyiSJeRNmt-5RKz0OUiPJOPnmVKGlWBOqwbwCW1WZt-E-hH4FEg4En5TITmmPb_feS9dWKUxudn1U0hHk2vV9PerjZLtI7F67KtgmcqRrARPbwnc6KyAi3Hy1hthP92lv4MRIcO2jx0Llvsja-G2nhjZB0ZoJwkb9106pmqldiwlXxky4Dcg7VPStiCYJvhQpRYol7Iq1_ltU2tyhMqsu_Xa8Z6Mr5ykRCLnmlLb8DV8isndrdwp84wo_vPARGRj7Up9ov-ycb5lDKTf1XRaHiMCa8d2WLy0Pjco9UnsRAPw0FW3MsBJah6ryHUUDho7ffhUUgV1k86ryJym6xbWch1sVC4D5owzrCFn6L-rSLc5SS1pza2zU5LK4kAZCmbXNRffiFrhUY8nP4T1xaR2KMhIaN8HhJQpR8sQh1Azc-QkDy4rwbYmxUrysYGMrAOnmDx9z7tWQXbJE4IgCVMx5wihSiE-T8nbF5y1aJ0Ru9zqg1nZ3GSqsucSnvJA8HV5t9v0QSG5cBC1x5HIceA-2uEGSjwcmYOMw8D_65Dl-d6yVk1YN2FZCgMWY5ewzB1RAFN1BMqKoITQJ64jq3lKATpkc5i7aTA2bRGQyXrbDyMRIrVXKnYMHegfMbDn0l4O81a8vxmevLspKkacVPiqLsAe-73jAxMvsOqaG7cKxMQO9CY3qbtD55YgN0W4p2jyNSVz3aEpffHRqYyWMsRI5LddLgaZQDoHHgGUhV580PSIdZJ5eKd0gOjxIYxKlr0IgbMWRmsG_TgDNImy1c5oey8ojl-zWpOQW7bnfq5Z4tZ10_sCTfoOZVLqRuOsqB1OOO9pLRQojLBP0HUiGhRAr_As9EIDu6F9NIQfdAmCaVvavJbi1CZITFjcywP-tBrHsxpwkCXlwl996MK_XyEDuyWnJVGiVSthUMY306tIh1Xxj93W3KQJCzsfJQcjN-3lGLLeDFddypHyG4yrpRqRHHBNyiNJHgxSk5SaShEhXvByjkepvhrKX3kJssCU04biqqmkrQ49GqBV9OsWIy0nN3OJTx8v05MP8aU8YYkYBF01UbSff4mTfLAhin6iWk84Y074mRbe2MbgFAdU58KnCrwYVxcAR8voZsFxbxNwZXdVeexNx5HlIlSgaAHLWm2kFWmGPPW-ZA7R8Wst-mc7oIKft5iJl8Ea0YFz8oXyVgQk1rd9nDR3xGe5mWL1co0MiW1yvHg’}}

如果其返回的是如上格式的数据，就代表 ReCAPTCHA 验证码已经识别成功了，其返回的 response 字段的内容就是识别的 token，我们直接拿着这个 token 放到表单里面提交就成功了。

那这个 token 怎么来用呢？其实如果我们用浏览器验证验证成功之后，点击表单提交的时候，在其表单里面会把一个 name 叫做 g-recaptcha-response 的 textarea 赋值，如果验证成功，它的 value 值就是验证之后得到的 token，这个会作为表单提交的一部分发送到服务器进行验证。如果这个字段校验成功了，那就没问题了。

所以，如上的过程相当于为我们模拟了点选验证码的过程，其最终得到的这个 token 其实就是我们应该赋值给 name 为 g-recaptcha-response 的内容。那么怎么赋值呢？很简单，用 JavaScript 就好了。我们可以用 JavaScript 选取到这个 textarea，然后直接赋值即可，代码如下：

document.getElementById(“g-recaptcha-response”).innerHTML=“TOKEN_FROM_YESCAPTCHA”;

注意这里的 TOKEN_FROM_YESCAPTCHA 需要换成刚才我们所得到的 token 值。我们做爬虫模拟登录的时候，假如是用 Selenium、Puppeteer 等软件，在模拟程序里面，只需要模拟执行这段 JavaScript 代码，就可以成功赋值了。执行之后，直接提交表单，我们查看下 Network 请求：

可以看到其就是提交了一个表单，其中有一个字段就是 g-recaptcha-response，它会发送到服务端进行校验，校验通过，那就成功了。所以，如果我们借助于 YesCaptcha 得到了这个 token，然后把它赋值到表单的 textarea 里面，表单就会提交，如果 token 有效，就能成功绕过登录，而不需要我们再去点选验证码了。最后我们得到如下成功的页面：

当然我们也可以使用 requests 来模拟完成表单提交：

def verify(response):

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

前端小雪球

关注

10
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
最新居然还有比12306还难的验证码网站？看我Python一一破解它!(1)，阿里+头条+抖音+百度+蚂蚁+京东面经

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
复制链接

扫一扫

专栏目录