python爬虫 模拟登陆

本文介绍了在学习Python爬虫过程中遇到的模拟登录问题,特别是针对存在统一身份认证界面的网站。通过分析登录时的数据交换,找到真实的提交表单网址,并利用urllib2库的cookie功能解决验证码获取,同时处理登录过程中的重定向问题。
摘要由CSDN通过智能技术生成

最近在学习python爬虫,前几天接触到模拟登陆这一块,其实之前就有接触过,但时间有点久远就遗忘了。在看了汪海的[Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)这篇文章后,尝试模拟登录自己学校的网站获取信息,但在登录这一块就卡壳了。

说明一下学校登录界面的情况。当需要进入个人信息的时候,比如图书馆、选课等,都会进入到一个专门的统一身份认证的界面,如图1所示。

图1

图1 统一身份认证界面

可以从图中看出,这儿的登录需要验证码,这就需要确保在模拟登陆时候获取的验证码一定和获取当前页面的验证码一致。 另外,这个验证码是动态生成的,所以没有办法在请求页面之后将获取到的页面内容进行解析获取验证码的网址。

图2给出的登录时所捕获到的数据。(Firefox + httpfox插件,目前感觉比chrome自带的审查元素要好用点)

图2

图2 登录时所捕获的数据

可以从图2看出,在登录提交表单(提交用户名、密码等信息&

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值