通过爬虫来理解Cookie和Session

最新推荐文章于 2024-07-18 17:01:30 发布

eye_water

最新推荐文章于 2024-07-18 17:01:30 发布

阅读量567

点赞数

分类专栏： python爬虫计算机网络文章标签：爬虫网络

本文链接：https://blog.csdn.net/eye_water/article/details/89647639

版权

python爬虫同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

计算机网络

4 篇文章 0 订阅

订阅专栏

文章目录

前言

Cookie和Session的概念我也接触过很多次，但一直没有机会实践一下，正巧最近想用爬虫模拟登录教务系统，就想到了利用Http的请求头来进行登录操作

登录的流程

在这里插入图片描述
这样做有什么好处？

最大的好处就是用户只需要输入一次账号密码，之后再访问网页时，只需要再Headers信息利用Cookie包含Session_id，后台就可以根据Session_id来判断用户是否登录

Session_id也有可能存在内存上

Set_cookie

一般打开教务系统时，因为我们前面多次登录过，因此Cookie信息会一直保存在浏览器中，我们要做的就是先清除Cookie
在这里插入图片描述
清除完Cookie刷新界面，可以看到返回的头部信息

Cookie

之后我们先输入账号密码登录
成功登录之后页面会进行跳转，对于我使用的教务系统
跳转到了
http://172.18.254.101/xs_main.aspx?xh=学号
然后看一下对于这个页面的请求头部信息
在这里插入图片描述

利用爬虫进行模拟登录

注意
在进行模拟登录时一定要在网页上保持教务系统的登录（不要退出！！！）

观察整个请求头发现，只需要在利用爬虫进行请求页面时把Headers与上述图片的Headers设置完全一样就可以获得页面信息

import requests

headers = {
	'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
	'Accept-Encoding': 'gzip, deflate',
	'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
	'Cache-Control': 'max-age=0',
	'Connection': 'keep-alive',
	'Cookie': 'ASP.NET_SessionId=t2iov2450tkelm55eiqm3ki3; BIGipServerpool-jw=2046694060.0.0000',
	'Host': '172.18.254.101',
	'Referer': 'http://172.18.254.101/',
	'Upgrade-Insecure-Requests': '1',
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'
	
}

r = requests.get('http://172.18.254.101/xs_main.aspx?xh=201616070204', headers=headers)
print(r.text)