使用scrapy自动登录网站

最新推荐文章于 2024-03-27 13:29:35 发布

嗨学编程

最新推荐文章于 2024-03-27 13:29:35 发布

阅读量1.2k

点赞数 2

分类专栏： Python爬虫文章标签： python

本文链接：https://blog.csdn.net/fei347795790/article/details/90770673

版权

Python爬虫专栏收录该内容

677 篇文章 317 订阅

订阅专栏

前面曾经介绍过requests实现自动登录的方法。这里介绍下使用scrapy如何实现自动登录。还是以csdn网站为例。

Scrapy使用FormRequest来登录并递交数据给服务器。只是带有额外的formdata参数用来传送登录的表单信息（用户名和密码），为了使用这个类，需要使用以下语句导入：from scrapy.http import FormRequest

那么关于登录过程中使用cookie值，scrapy会自动为我们处理cookie，只要我们登录成功了，它就会像一个浏览器一样自动传送cookie

首先爬虫中定义start_requests

def start_requests(self):

return [Request("http://passport.csdn.net/account/login",meta={'cookiejar':1},callback=self.post_login,method="POST")]

其中采用Requests的方法首先访问登录网站。meta属性是字典，字典格式即{‘key’:'value'}，字典是一种可变容器模型，可存储任意类型对象。

request中meta参数的作用是传递信息给下一个函数，这些信息可以是任意类型的，比如值、字符串、列表、字典......方法是把要传递的信息赋值给meta字典的键. 上面start_requests中键‘cookiejar’是一个特殊的键，scrapy在meta中见到此键后，会自动将cookie传递到要callback的函数中。既然是键(key)，就需要有值(value)与之对应，例子中给了数字1，也可以是其他值，比如任意一个字符串。

Callback就是连接到了登录网站后下一步需要调的函数。下面来看下post_login如何实现

首先是获取lt,execution字段的值，具体在之前介绍requests的帖子中有解释。

然后调用FormRequest.from_response。这个方法的作用是从response中返回的网页中构造表单数据，因此第一个参数是response。这里response返回的网页也就是前面Requests中调用的http://passport.csdn.net/account/login

接下来的参数是meta。Heasers,formadata以及callback。这里的callback有就是指向登录后的函数。

after_login的实现如下。

从fiddler中抓取的数据可以看到jsessionid是在访问登录网站后，网站返回的response 消息的header消息中。也就是网站设置的cookie值

完整的代码：

嗨学编程

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用scrapy自动登录网站

前面曾经介绍过requests实现自动登录的方法。这里介绍下使用scrapy如何实现自动登录。还是以csdn网站为例。Scrapy使用FormRequest来登录并递交数据给服务器。只是带有额外的formdata参数用来传送登录的表单信息（用户名和密码），为了使用这个类，需要使用以下语句导入：from scrapy.http import FormRequest那么关于登录过程中使用coo...
复制链接

扫一扫