python 爬虫（三）cookie和session + 爬虫中使用cookie或session实现登录 + 代理的设置（解决ip被封问题）

最新推荐文章于 2023-01-08 22:23:01 发布

missing walker

最新推荐文章于 2023-01-08 22:23:01 发布

阅读量4.7k

点赞数 11

分类专栏： # python 爬虫

本文链接：https://blog.csdn.net/langdei/article/details/102806580

版权

python 爬虫专栏收录该内容

14 篇文章 8 订阅

订阅专栏

一、cookie和session

1.产生的缘由

Http有个特点，即无状态。Http无状态是指Http协议对事务处理没有记忆能力，当我们向服务器发送请求后，服务器处理请求之后返回结果。这是一个独立的过程，再次向服务器发出请求，服务器做出响应又是一次独立的过程，服务器不会记录前后状态变化。因此，服务器并不知道收到的两次请求是否来自同一个用户。这种效果并不是我们想要的。为了保持前后的状态，我们需要将前面所有请求中的数据再重传一次，这是非常麻烦和浪费资源的。为了解决这个问题，用于保持HTTP连接状态的Session和Cookies就出现了。

2.cookie和session存放位置

cookie是在客户端记录状态，一般存放在客户端
session是在服务器端记录状态，一般存在服务器或数据库中

3. cookie

① cookie定义

cookies 指某些网站为了辨别用户身份、进行会话跟踪而存储在用户本地终端上的数据。
Cookie中包含了一个由名字=值（name=value）这样的信息构成的任意列表，通过Set-Cookie或Set-Cookie2HTTP响应（扩展）首部将其贴到客户端身上。

② cookie的分类

会话cookie
- 定义：不设置过期时间，在浏览器内存中存储的cookie，浏览器关闭，会话cookie失效
持久cookie
- 定义：保存在硬盘的cookie

注意：这两种cookie分配的标准主要是通过MaxAge或Expires这个cookie的字段来定义的----->为负数，则为会话cookie。

③ cookie的组成（属性）

因为最开始的cookie是网景公司定义的，后来又有了RFC版本。
所以当前的Cookie有两个版本：Version0和Version1。
他们有两种设置响应头的标识，分别是：Set-Cookie和Set-Cookie2,
这也造成了一些属性的不同,这里需要注意：常用的为Version0

Version0的属性

cookie属性	作用
NAME=Value	键值对设置要保存的Name/Value,这里的name不能喝其他属性的名字一样。Name ：该cookie的名称。一旦创建，该名称便不可更改。value ：该cookie 的值。如果值为Unicode 字符，需要为字符编码。如果值为二进制数据，则需要使用BASE64 编码。
Domain	可以访问该cookle 的域名。例如，如果设置为.zhihu.com ，则所有以zhihu.com 结尾的域名都可以访问该cookie。
MaxAge/Expires	该cookie 失效的时间，单位为秒，也常和Expires— 起使用，通过它可以计算出其有效时间。Max Age 如果为正数，则该cookie 在Max Age 秒之后失效。如果为负数，则关闭浏览器时cookie 即失效，浏览器也不会以任何形式保存该cookie 。
Path	该cookie 的使用路径。如果设置为/path/ ，则只有路径为/ path / 的页面可以访问该cookie 。如果设置为/ ，则本域名下的所有页面都可以访问该cookieo
Size	此Cookie 的大小
HTTP	cookie 的httponly 属性。若此属性为true ，则只有在HTTP 头中会带有此Cookie 的信息，而不能通过document.cookie 来访问此Cookie。
Secure	该cookie 是否仅被使用安全协议传输。安全协议有H TTP s 和SSL 等，在网络上传输数据之前先将数据加密。默认为false。

Version1的属性

cookie属性	作用
Name=VALUE	键值对设置要保存的Name/Value,这里的name不能喝其他属性的名字一样
Comment	用于说明该Cookie有什么用途
CommentURL	该服务器为此COokie提供URI注释
Discard	是否在回话结束丢弃该Cookie，默认为false
Domain	生成该Cookie的域名
Max-Age	最大失效时间，与Version0不同的是这里设置的是在多少秒后失效
Path	该Cookie是在当前的哪个路径下生成
Port	该Cookie在什么端口下可以回传服务端，如果有多个端口，以逗号隔开
Secure	如果设置了这个属性，那么只会在SSH连接时才会回传该Cookie

④ cookie被用户禁用，如何使用session？

cookie和session一般是配合使用的，当cookie被用户禁用，session如何使用
两种方法：
- 方法一：提示用户必须开启
- 方法二：使用url重传。------->就是将sessionid附带url后面传递给服务器

⑤ 常见误区

在这里插入图片描述

4. session

① session的由来

上面我们知道了Cookie可以让服务器端跟踪每个客户端的访问，但是每次客户端的访问都必须传回这些Cookie，如果Cookie很多，这无形地增加了客户端与服务端的数据传输量，而Session的出现正是为了解决这个问题。
同一个客户端每次和服务端交互时，不需要每次都传回所有的Cookie值，而是只要传回一个ID这个ID是客户端第一次访问服务器的时候生成的，而且每个客户端是唯一的。这样每个客户端就有了一个唯一的ID，客户端只要传回这个ID就行了，这个ID通常是NANE为JSESIONID的一个Cookie。所以Session其实是利用Cookie进行信息处理的。

② session的定义

对于session，会话，其本来的含义是指有始有终的一系列动作/ 消息。而在web 中，会话对象用来存储特定用户会话所需的属性及配置信息。

③ session流程

当客户端发送一个cookie，服务器会从这个cookie中找到sessionId，在查找出相应session信息返回给客户端，来进行用户页面的流转。如果通过sessionid来查找session，发现session没有，因为第一次登陆，就会创建一个session。在session有效期内，继续访问该页面，服务器就会直接查找到这个session返回给客户端。

④ session失效时间

当session的失效时间到达时失效，一般是30分钟。

5. session和cookie的区别

cookie和session的共同之处在于： cookie和session都是用来跟踪浏览器用户身份的会话方式。
cookie和session的区别是：
- cookie数据保存在客户端，session数据保存在服务器端。
- cookie不是很安全，别人可以分析存放在本地的COOKIE并进行COOKIE欺骗,如果主要考虑到安全应当使用session，当然也没有绝对的安全，只是相对cookie，session更加安全。
- session会在一定时间内保存在服务器上。当访问增多，会比较占用你服务器的性能，如果主要考虑到减轻服务器性能方面，应当使用COOKIE
- cookie校验速度快，session校验速度慢
对于session，会话，其本来的含义是指有始有终的一系列动作/ 消息。而在web 中，会话对象用来存储特定用户会话所需的属性及配置信息。
cookies 指某些网站为了辨别用户身份、进行会话跟踪而存储在用户本地终端上的数据。
产生缘由：由于http是一个无状态的协议，每次请求如果需要之前请求的一些信息，此时必须重新发送之前的请求。为了解决这种问题，产生了一种记录状态技术-----就是cookie和session
cookie是在客户端记录状态，session是在服务器端记录状态
联系：当客户端发送一个cookie，服务器会从这个cookie中找到sessionId，在查找出相应session信心返回给客户端，来进行用户页面的流转。如果通过sessionid来查找session，发现session没有，因为第一次登陆，就会创建一个session。在session有效期内，继续访问该页面，服务器就会直接查找到这个session返回给客户端。

总结：cookie和session各有优缺点，所以将登陆信息等重要信息存放为SESSION;其他信息如果需要保留，可以放在COOKIE中

二、使用cookie或session登录

1. 爬虫中登录的实现方法

两种方法：
- 第一种：封装登录后页面中的cookie在请求头中
- 第二种：使用requests的session对象，来做到登录。

session = requests.session()
这个session对象可以记录登录状态。

2. 使用cookie登录的两种方法

① 直接放在headers头部中

案例：使用cookie登录人人网

import requests

base_url = 'http://www.renren.com/972683074/newsfeed/photo'

## 通过cookie来做到登录时，我们必须拿浏览器中登陆后的页面中的cookie来进行封装

headers = {
'Cookie': 'headers中的cookie',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'
}

response = requests.get(base_url,headers=headers)

if "飘雪" in response.text:
    print("登录人人网个人页成功")
else:
    print("登录失败")

通过客户端cookie将我们的信息传到服务器，服务器验证成功后允许登录访问，我们拿到的就是这个cookie封装后的结果
在这里插入图片描述

② 使用requests插入Cookie

import requests

base_url = 'http://www.renren.com/972683074/newsfeed/photo'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'
}
cookie = {'Cookie': 'headers中的cookie'}
requests.get(url,cookies=cookie,headers=headers).text

3. 使用session登录

在登录页面通过form表单的提交地址，提交用户名密码登录
在这里插入图片描述
案例：人人网

import requests

base_url = 'http://www.renren.com/PLogin.do'
headers= {
    'Host': 'www.renren.com',
    'Referer': 'http://safe.renren.com/security/account',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36',
}
data = {
    'email':'13016031459',
    'password':'Abc12345^',
}
#创建一个session对象
se = requests.session()
#用session对象来发送post请求进行登录。
se.post(base_url,headers=headers,data=data)
response = se.get('http://www.renren.com/971682585')

if '鸣人' in response.text:
    print('登录成功！')
else:
    print(response.text)
    print('登录失败！')

三、代理的设置

1. 代理的基本原理

在这里插入图片描述

2. 代理的作用

在这里插入图片描述

3. 代理的分类

① 根据协议来区分

在这里插入图片描述

② 根据匿名程度来区分

在这里插入图片描述

③ 在requests中如何设置代理

创建一个代理字典

proxies = {
'http':代理ip
'https':'https://ip:port'
}

用get或post方法请求的时候，增加proxies这个参数就可以了

requests.get(proxies = proxies)

missing walker

关注

11
点赞
踩
48

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python 爬虫（三）cookie和session + 爬虫中使用cookie或session实现登录 + 代理的设置（解决ip被封问题）

文章目录

一、cookie和session

1.产生的缘由

2.cookie和session存放位置

3. cookie

① cookie定义

② cookie的分类

③ cookie的组成（属性）

④ cookie被用户禁用，如何使用session？

⑤ 常见误区

4. session

① session的由来

② session的定义

③ session流程

④ session失效时间

5. session和cookie的区别

二、使用cookie或session登录

1. 爬虫中登录的实现方法

2. 使用cookie登录的两种方法

① 直接放在headers头部中

② 使用requests插入Cookie

3. 使用session登录

三、代理的设置

1. 代理的基本原理

2. 代理的作用

3. 代理的分类

① 根据协议来区分

② 根据匿名程度来区分

③ 在requests中如何设置代理