爬虫_017_requests库_cookie登录【绕过验证码】

本文介绍了如何使用requests库结合cookie来处理验证码登录,通过定位登录接口,解析登录页面元素,下载并识别验证码,最后利用session保持会话,避免二次验证码问题,实现了对古诗文网的登录访问。
摘要由CSDN通过智能技术生成

图片验证码

1.首先定位登录的接口【在network中找到login开头的文件,观察preview是否是登录页面】

2.在login文件中拿到url,有些网站可能不需要登录就可以获取反应的数据,有些则需要登录,找到payload里的数据,观察哪几个是变量,一般除了邮箱密码和登录之外都是变量

3.爬取网页源码,使用xpath【etree.HTML】方法来定位需要获取的元素,获取需要的值,这种情况下一般变量都会带有hidden属性。

        在登录页面按F12--ctrl+f 搜索需要元素--打开xpath插件--输入xpath路径验证是否为我们需要的数据。

4.在 3 中我们会获取到验证码的图片地址,这个时候我们需要将图片下载到本地【urllib.request.

urlretrieve】

        注!!!:在使用urllib时会发送一次请求,这个时候会获取第一次验证码,但是后面的post请求会再次获取验证码,导致两次验证码不一样,从而无法进入主页面

所以这里使用session的方法【让两个请求变成一个请求】

# session方法,获取验证码的二进制数据保存为jpg/png格式到本地
session = requests.session()
response_code = session.get(code_url)
content_code = response_code.content
with open('yzm.jpg', 'wb
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值