一、会话和Cookies
在浏览网站的过程,我们经常会遇到登录的情况。其中自动登录就涉及会话和Cookies的相关知识。
1.静态网页和动态网页
我们将前文的HTML代码保存为一个.html文件,然后把它放在某台具有公网IP的主机上,主机装上Apache或Nginx等服务器。这样这台主机就可以作为服务器了,这就搭建了一个最简单的网站。
这种由HTML代码编写的叫作静态网页。它加载速度快,编写简单,但可维护性差,不能根据URL灵活多变地显示内容等。如,我们想给这个网页的URL传入一个name参数,让其在网页中显示出来做不到。
动态网站就能动态解析URL中的参数变化。我们遇到的大多数网站都是动态网站它们不再是一个简单的HTML,而有可能由JSP、PHP、Python等语言编写。
此外,动态网站还可以实现用户登录和注册功能。
2.无状态HTTP
HTTP无状态指的是HTTP协议对事务处理是没有记忆能力。如果后续需要处理前面的信息就必须重传。
会话和Cookies就能保持HTTP连接状态。会话在服务端,也就是网站的服务器,用来保存用户的会话信息;Cookies在客户端,也可以理解为浏览器端,有了Cookies,浏览器在下次访问网页时就会自动附带上它发送给服务器。
我们可以理解为Cookies里保存了登录的凭证,有了它,只需要在下次请求携带Cookies发送请求。
因此在爬虫中面对登录才能访问的页面时,我们一般会直接将登录成功截取的Cookies放在请求头里直接请求,不必模拟登录。
1.会话
会话,本意为有始有终的一系列动作/消息。比如打电话时,从拿起手机拨号到挂断电话这中间一系列过程可称为一个会话。
而在web中&#