Python 爬虫闯关（第三关）

hoxis

于 2018-07-20 09:19:33 发布

阅读量1k

点赞数

分类专栏： python学习有趣的Python 文章标签： Python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bruce_6/article/details/81126189

版权

本文介绍了Python爬虫如何模拟登录一个带有两层保护机制的网站，包括页面分析、解题思路和使用requests及selenium的实现方法。通过详细步骤展示了登录过程中cookie和post数据的处理，强调了理解字段来源和意义的重要性。

摘要由CSDN通过智能技术生成

第三关开始有点难度了，本关的难点就是所谓的两层认证，需要获取处理 cookie。

闯关地址是：http://www.heibanke.com/lesson/crawler_ex02/

页面分析

刚进入页面时没看懂是怎么玩，以为到这就结束了，抱着试试看的态度注册了下。

爬虫闯关第三关

注册登录后，发现是一个记账点之类的，网页还没有跳转到题目网页，还不知道怎么玩。

重新从题目地址进入后，发现可以玩了：

题目页面

页面提示 比上一关多了两层保护。

解题思路

题目中提到了两层保护，是哪两层呢？

首先，多了账号登陆一层，还有一层是什么呢？重新登陆，打开 firebug 记录一下整个流程：

请求处理流程

从动图中我们可以看到整个流程分为 4 步，依次点击 4 个步骤，分析记录请求标头、请求正文、响应标头、cookies 等是否有值，值为多少，值的来源与请求顺序之间的关系。

为了下文描述方便，我们约定两个变量：

URL=http://www.heibanke.com/lesson/crawler_ex02/
LOGIN_URL=http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex02/

第 1 步

首先访问 URL，浏览器会向 URL 发出 GET 请求，得到一个 302 的重定向的响应，响应标头中包含了一个 Location 字段，告诉浏览器新的访问地址 LOGIN_URL。

如果之前用同样的浏览器闯过第一关或第二关，此请求的请求标头仍然会带上 cookie，但并无实际作用，可忽略；

第 1 步

第 2 步

浏览器向 LOGIN_URL 发出新的 GET 请求。我们注意到请求和响应中带了一个 cookie，其中都有一个 csrftoken 字段，其值为 708NMR2acyRWlblKw0rBqSjayL70TJDT。

如果仔细观察，第一步请求头的 cookie 中也有这么一个字段，我们将其记下，此 csrftoken 都将作为以后访问过程中的依据之一。我们将此返回的 cookie 记为 c1；

第 2 步

第 3 步

首先我们这里已经注册过了，直接填写登录信息，浏览器会再向 LOGIN_URL 发出 POST 请求，得到一个向第一步中 URL 的重定向的 302 响应。

请求标头和请求正文中都附带上第二步中的 cookie c1，另外，我们发现请求正文参数中除了 username 和 password 字段外，还有一个 csrfmiddlewaretoken 字段

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫闯关（第三关）

第三关开始有点难度了，本关的难点就是所谓的两层认证，需要获取处理 cookie。闯关地址是：http://www.heibanke.com/lesson/crawler_ex02/页面分析刚进入页面时没看懂是怎么玩，以为到这就结束了，抱着试试看的态度注册了下。注册登录后，发现是一个记账点之类的，网页还没有跳转到题目网页，还不知道怎么玩。重新从题目地址进入后，发现可以玩了...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。