Pytyon爬虫基础(四)会话和Cookies

本文介绍了Python爬虫中会话和Cookies的概念及其作用。会话用于在服务端保存用户信息,Cookies则存储在客户端,两者结合实现HTTP连接状态的保持。在动态网站的登录场景中,爬虫可以通过携带登录后的Cookies直接请求页面,避免模拟登录。文章还详细讲解了Cookies的属性结构,包括名称、值、Domain、Max Age、Path、Size、HTTP字段和Secure属性,并区分了会话Cookie与持久Cookie的区别。
摘要由CSDN通过智能技术生成

一、会话和Cookies

在浏览网站的过程,我们经常会遇到登录的情况。其中自动登录就涉及会话和Cookies的相关知识。

1.静态网页和动态网页

我们将前文的HTML代码保存为一个.html文件,然后把它放在某台具有公网IP的主机上,主机装上Apache或Nginx等服务器。这样这台主机就可以作为服务器了,这就搭建了一个最简单的网站。

这种由HTML代码编写的叫作静态网页。它加载速度快,编写简单,但可维护性差,不能根据URL灵活多变地显示内容等。如,我们想给这个网页的URL传入一个name参数,让其在网页中显示出来做不到。

动态网站就能动态解析URL中的参数变化。我们遇到的大多数网站都是动态网站它们不再是一个简单的HTML,而有可能由JSP、PHP、Python等语言编写。

此外,动态网站还可以实现用户登录和注册功能。

2.无状态HTTP

HTTP无状态指的是HTTP协议对事务处理是没有记忆能力。如果后续需要处理前面的信息就必须重传。

会话和Cookies就能保持HTTP连接状态。会话在服务端,也就是网站的服务器,用来保存用户的会话信息;Cookies在客户端,也可以理解为浏览器端,有了Cookies,浏览器在下次访问网页时就会自动附带上它发送给服务器。

我们可以理解为Cookies里保存了登录的凭证,有了它,只需要在下次请求携带Cookies发送请求。

因此在爬虫中面对登录才能访问的页面时,我们一般会直接将登录成功截取的Cookies放在请求头里直接请求,不必模拟登录。

1.会话

会话,本意为有始有终的一系列动作/消息。比如打电话时,从拿起手机拨号到挂断电话这中间一系列过程可称为一个会话。

而在web中&#

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值