一般登录流程:
查看有些网站的数据,需要登录状态,而登录状态是通过cookie保持。
而常见的登录流程一般有两种,情况不同,在基于爬虫实现自动登录时,也需要做不同的调整。
一般情况都是第二种,但是有比较变态的用的是第一种!
第一种:
正常请求流程:
- 第一次访问,后台会返回内容 + Cookie,在cookie中保存当前用户凭证(此时凭证没啥用)
- 第二次访问,输入用户名+密码提交,此时浏览器会自动将第一次返回的凭证携带到后台;后台校验成功,此时给凭证赋予登录权限(还是原来的凭证,只不过此时的凭证是有用户已登录的标识了,即可通过这个凭证确认当前用户是正常登录状态了)
- 第n次登录,携带cookie中的凭证去访问,后台就会根据凭证(用户标识)返回与用户的相关信息。
基于爬虫实现流程:
- 第一次访问,读取返回cookie并保存;
- 第二次访问,携带用户名+密码+上次的cookie进行登录;