爬虫知识6：自动登录与cookies的应用

最新推荐文章于 2024-04-17 21:50:32 发布

乐想屋

最新推荐文章于 2024-04-17 21:50:32 发布

阅读量1.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/79766163

版权

普通请求使用scrapy.Request类就可以实现，但是遇到模拟表单或Ajax提交post请求的时候，Request类就不如子类FormRequest类方便了，因为他自带formdata 专门用来设置表单字段数据，默认method也是POST。

4个github自动登录案例：

案例2：模拟表单数据fromdata，发送formrequest请求。完成github自动登录
案例3：利用登录成功的cookies信息，完成gibhub自动登录
案例4：利用requests模块，模拟表单数据fromdata，完成github自动登录。
案例5：scrapy框架，携带登录信息，完成抽屉自动登录。

案例1：scrapy下如何发起一个FormResquest的post请求，熟悉这个过程之后方便看懂form信息的传递

建立一个爬虫项目，在爬虫程序写入以下内容：主要重点是需要包含formdata的内容

运行爬虫，可以看到以下内容：

案例2：模拟表单数据fromdata，发送formrequest请求。完成github自动登录

在爬虫程序中写入以下内容：

登录成功后，会在日志中，打印登录的网址以及用户名

附：如何查询表单都需要包含哪些数据：

进入登录页面，随机填写用户名和密码，提交一下，右键---检查元素---network，可以找到如下FormData的信息，模拟自动登录时，也只需要把formdata的信息模拟出来即可。

在元素Element中也可以找到这几个变量，比如token等

案例3：利用登录成功的cookies信息，完成gibhub自动登录

爬虫程序如下：

执行效果：可以看到如下信息

附：关于已经登录成功的cookies获取：

先在登录页面登录成功，右键---检查元素---network，多刷新几次页面，找到如下cookies信息，里面有一些有登录成功的字眼，比如“logged_in=yes”

把整个cookies的内容都要复制下来，赋值给上述爬虫程序中的loginck变量。

附：如何在日志中输出Cookies信息：

需要在在settings.py，写上COOKIES_DEBUG=True语句

日志中就可以看到跑出的如下内容：状态由logged_in=no变为logged_in=yes

案例4：利用requests模块，模拟表单数据fromdata，完成github自动登录。

案例5：scrapy框架，携带登录信息，完成抽屉自动登录。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫知识6：自动登录与cookies的应用

普通请求使用scrapy.Request类就可以实现，但是遇到模拟表单或Ajax提交post请求的时候，Request类就不如子类FormRequest类方便了，因为他自带formdata 专门用来设置表单字段数据，默认method也是POST。4个github自动登录案例：案例2：模拟表单数据fromdata，发送formrequest请求。完成github自动登录案例3：利用登录成功的cook
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。