登陆的原理
会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。
web中的身份识别
Cookie通过在客户端记录信息确定用户身份,
Cookie实际上是一小段的文本信息。客户端请求服务器,如果服务器需要记录该用户状态,就使用response向客户端浏览器颁发一个Cookie。客户端浏览器会把Cookie保存起来。当浏览器再请求该网站时,浏览器把请求的网址连同该 Cookie 一同提交给服务器。 服务器检查该 Cookie,以此来辨认用户状态。服务器还可以根据需要修改Cookie的内容。Session通过在服务器端记录信息确定用户身份,
Session是另一种记录客户状态的机制,不同的是Cookie保存在客户端浏览器中,而Session保存在服务器上。客户端浏览器访问服务器的时候,服务器把客户端信息以某种形式记录在服务器上。这就是Session。客户端浏览器再次访问时只需要从该Session中查找该客户的状态就可以了。
如果说Cookie机制是通过检查客户身上的“通行证”来确定客户身份的话,那么Session机制就是通过检查服务器上的“客户明细表”来确认客户身份。Session相当于程序在服务器上建立的一份客户档案,客户来访的时候只需要查询客户档案表就可以了。
登录的方法
- FormRequest:使用用户名和密码登陆
- 添加Cookie:添加cookie到Request当中
cookie的处理
- cookies middleware
- 手动定制:在spider中定制包含cookies的Request
- 总结:
- 掌握使用formRequest登录的方法;
- 掌握使用cookies模拟登录者的方法;
14_抓取过程中的常见问题2—cookie的处理
最新推荐文章于 2024-06-24 16:12:56 发布