爬虫知识6:自动登录与cookies的应用

   普通请求使用scrapy.Request类就可以实现,但是遇到模拟表单或Ajax提交post请求的时候,Request类就不如子类FormRequest类方便了,因为他自带formdata 专门用来设置表单字段数据,默认method也是POST。

4个github自动登录案例:

  • 案例2:模拟表单数据fromdata,发送formrequest请求。完成github自动登录

  • 案例3:利用登录成功的cookies信息,完成gibhub自动登录

  • 案例4:利用requests模块,模拟表单数据fromdata,完成github自动登录。

  • 案例5:scrapy框架,携带登录信息,完成抽屉自动登录。

案例1:scrapy下如何发起一个FormResquest的post请求,熟悉这个过程之后方便看懂form信息的传递

建立一个爬虫项目,在爬虫程序写入以下内容:主要重点是需要包含formdata的内容

运行爬虫,可以看到以下内容:

案例2:模拟表单数据fromdata,发送formrequest请求。完成github自动登录

在爬虫程序中写入以下内容:

登录成功后,会在日志中,打印登录的网址以及用户名

附:如何查询表单都需要包含哪些数据

进入登录页面,随机填写用户名和密码,提交一下,右键---检查元素---network,可以找到如下FormData的信息,模拟自动登录时,也只需要把formdata的信息模拟出来即可。

在元素Element中也可以找到这几个变量,比如token等

案例3:利用登录成功的cookies信息,完成gibhub自动登录

爬虫程序如下:

执行效果:可以看到如下信息

附:关于已经登录成功的cookies获取:

先在登录页面登录成功,右键---检查元素---network,多刷新几次页面,找到如下cookies信息,里面有一些有登录成功的字眼,比如“logged_in=yes”

把整个cookies的内容都要复制下来,赋值给上述爬虫程序中的loginck变量。 

附:如何在日志中输出Cookies信息:

需要在在settings.py,写上COOKIES_DEBUG=True语句

日志中就可以看到跑出的如下内容:状态由logged_in=no变为logged_in=yes

案例4:利用requests模块,模拟表单数据fromdata,完成github自动登录。

案例5:scrapy框架,携带登录信息,完成抽屉自动登录

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值