python 爬虫(cookie)

最新推荐文章于 2024-09-16 10:37:31 发布

爱耍流氓的兔子

最新推荐文章于 2024-09-16 10:37:31 发布

阅读量4.2k

点赞数 4

分类专栏：爬虫基础知识文章标签： python 爬虫 http

本文链接：https://blog.csdn.net/sonflower123/article/details/124748949

版权

爬虫基础知识专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细介绍了Cookie和Session的区别，包括它们的存储位置、安全性及对服务器性能的影响。针对爬虫，解释了如何处理携带Cookie和Session的请求，以及如何利用requests库的Session类实现会话保持。同时，指出了快速请求可能导致的被识别为爬虫的风险，并探讨了通过不同方式获取登录后页面的方法。

摘要由CSDN通过智能技术生成

cookie和session区别

cookie数据存放在客户浏览器上，session数据放在服务器上
cookie不是很安全，别人可以分析放在本地的cookie并进行cookie欺骗
session会在一定时间上保存在服务器。当访问增多，会比较占用服务器的性能。
单个cookie保存的数据不能超过4K，很多浏览器限制到一个站点最多保存20个cookie

爬虫处理cookie和session

带上cookie、session的优点:

能够请求到登录后页面

带上cookie、session的弊端:

不需要cookie的时候尽量不去使用cookie
但是为了获取登录后的页面，我们必须发送带有cookie的请求

一套cookie和session往往和一个用户对应

请求太快、请求次数太多、容易被服务器识别为爬虫

携带cookie的请求

携带一堆cookie进行请求，把cookie组成cookie池

处理cookie、session请求

requests提供了一个叫做session类，来实现客户端和服务端的会话保持

使用方法:

实例化一个session对象
session发送get或者post请求

session = requests.session()
resp = session.get(url,headers)

请求登录之后的网站

未登录时我们无法直接通过url地址访问用户信息页

实例化session
先使用session发送请求，登录网站，把cookie保存在session中
再使用session请求登录之后才能访问的网站，session能够自动的携带登录成功是保存在其中的cookie，进行请求

import requests
session=requests.session()
port_url='http://www.renren.com/PLogin.do'
post_data={}
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"}