关闭

14_抓取过程中的常见问题2—cookie的处理

209人阅读 评论(0) 收藏 举报
分类:
  • 登陆的原理

    • 会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。

    • web中的身份识别

      • Cookie通过在客户端记录信息确定用户身份,
        Cookie实际上是一小段的文本信息。客户端请求服务器,如果服务器需要记录该用户状态,就使用response向客户端浏览器颁发一个Cookie。客户端浏览器会把Cookie保存起来。当浏览器再请求该网站时,浏览器把请求的网址连同该 Cookie 一同提交给服务器。 服务器检查该 Cookie,以此来辨认用户状态。服务器还可以根据需要修改Cookie的内容。

      • Session通过在服务器端记录信息确定用户身份,
        Session是另一种记录客户状态的机制,不同的是Cookie保存在客户端浏览器中,而Session保存在服务器上。客户端浏览器访问服务器的时候,服务器把客户端信息以某种形式记录在服务器上。这就是Session。客户端浏览器再次访问时只需要从该Session中查找该客户的状态就可以了。
        如果说Cookie机制是通过检查客户身上的“通行证”来确定客户身份的话,那么Session机制就是通过检查服务器上的“客户明细表”来确认客户身份。Session相当于程序在服务器上建立的一份客户档案,客户来访的时候只需要查询客户档案表就可以了。

  • 登录的方法

    • FormRequest:使用用户名和密码登陆
    • 添加Cookie:添加cookie到Request当中
  • cookie的处理

    • cookies middleware
    • 手动定制:在spider中定制包含cookies的Request
  • 总结:
    1. 掌握使用formRequest登录的方法;
    2. 掌握使用cookies模拟登录者的方法;
0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:4785次
    • 积分:144
    • 等级:
    • 排名:千里之外
    • 原创:8篇
    • 转载:8篇
    • 译文:0篇
    • 评论:1条
    文章分类
    最新评论