【Python爬虫】HTTP

1.1 HTTP的原理

通过浏览器访问网页的过程需要使用HTTP进行通信,浏览器作为客户端向网页服务器发送请求,服务器收到请求后
给客户端发送响应。

访问网页时,借助浏览器的开发者工具,可查看网络资源加载情况,分析请求方法类型、请求头字段、响应状态码
和响应头信息。

若需要维护客户端和服务器的通信状态,则需要用到Cookie,可使用浏览器的开发者工具定位Cookie信息,掌握
Cookie的运行机制。

1.2 HTTP的请求方式和过程

HTTP规定了客户端与服务器之间进行网页内容传输时,所必须遵守的传输格式。

HTTP客户端会向服务器发起一个请求,创建一个到服务器指定端口默认是80端口)的传输控制协议(TCP)连接。

HTTP服务器则从该端口监听客户端的请求,一旦接收到请求,服务器会向客户端返回一个响应状态
(如HTTP、1.1 200 OK),服务器还会向客户端返回响应的内容,如请求的文件、错误消息或其他信息。

(1)在HTTP/1.1中,一共定义了8种方法(动作)来以不同方式操作指定的资源。

请求方法名称是区分大小写的。

当某个请求所指定的资源不支持对应的请求方法时,服务器会返回状态码(405)。
当服务器不认识或不支持对应的请求方法时,服务器会返回状态码(501)。

一般情况下,HTTP服务器至少需要实现 GET 和 HEAD 方法,其他方法为可选项。
所有的方法支持的实现都应当匹配方法各自的语法格式。

除下表外,HTTP服务器还能扩展自定义的方法。

在这里插入图片描述
在这里插入图片描述
(2)请求和响应

HTTP采用请求/响应模型。

客户端向服务器发送一个请求报文,请求报文的内容:请求方法、URL、协议版本、请求头部、请求数据。
服务器以一个状态行作为响应,响应的内容:协议版本、响应状态、服务器信息、响应头部、响应数据。

客户端与服务器间的请求与响应的具体步骤:

1.连接服务器。
由一个客户端(提出为浏览器)发起连接。与服务器的HTTP端口建立一个TCP套接字连接。

2.发送HTTP请求。
客户端经TCP套接字向Web服务器发送一个文本格式的请求报文,一个请求报文由请求行。请求头部、空行、请求数据这4个部分组成。

3.服务器接收请求并返回HTTP响应。
Web服务器解析请求,定位本次的请求资源。之后将资源副本写至TCP套接字,由客户端进行读取。一个响应与一个请求对应,由状态行、响应头部、空行、响应数据这4部分组成。

4.释放TCP连接。
若本次连接的Connection模式为close,则由服务器主动关闭TCP连接,客户端将被动关闭连接,释放TCP连接。若Connection模式为keep-alive,则该连接会保持一段时间,在这段时间内可以继续接收请求与回传响应。

5.客户端解析HTML内容。
客户端首先会对状态行进行解析,查看状态码是否能表明本次请求是成功的。之后解析每一个响应头,响应头告知内容为若干字节的HTML文档和文档的字符集。最后由客户端读取响应HTML数据,根据HTML的语法对其进行格式化,并在窗口显示。

1.3 HTTP的状态码

客户端向服务器端发送请求后,服务器端会根据请求内容给予响应。
不同的HTTP状态码代表了不同的服务器响应状态。

(1)HTTP状态码种类

HTTP状态码是用来表示网页服务器响应状态的3位数字代码。

HTTP的状态码按首位数字分为5类:

在这里插入图片描述

(2)常见的HTTP状态码

在这里插入图片描述

1.4 HTTP的头部信息

HTTP的头部信息:指在HTTP的请求信息和响应消息中的HTTP头部信息部分。

HTTP的头部信息按用途分成: 通用头、请求头、响应头、实体头。
HTTP头字段被对应分为4种类型:通用头字段、请求头字段、响应头字段、实体头字段。

在头部信息中,定义了一个HTTP事务中的操作参数。
在爬虫中需要使用头部信息向服务器发送模拟信息,并通过发送模拟的头部信息将自己伪装成一般的客户端。

在这里插入图片描述

(1)通用头

通用头即适用于客户端的请求头,也适用于服务器的响应头。
其与HTTP消息体内最终传输的数据是无关的,只适用于要发送的消息。

在这里插入图片描述

(2)请求头

请求头可提供更为精确的描述信息,其对象为所请求的资源或请求本身。
其中有些缓存相关头描述了缓存信息,这些头会改变GET请求时获取资源的方式,如If-Modified-Since。

新版本增加的请求头不能在旧版本的HTTP中使用,但服务器和客户端若都能对相关头进行处理,则可以在请求中使用。
在这种情况下,客户端不应该假定服务器有对相关头的处理能力,而未知的请求头将被处理为实体头。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(3)响应头

响应头为响应消息提供了更多信息。

与请求头类似,新版本增加的响应头也不能在更旧版本的HTTP中使用。
但是,如果服务器和客户端都能对相关头进行处理,那么可以在响应中使用。
在这种情况下,服务器也不应该假定客户端有对相关头的处理能力,未知的响应头也将被处理为实体头。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(4)实体头

实体头可提供关于消息体的描述。

新版本的实体头可以在更旧版本的HTTP中使用。

在这里插入图片描述

1.5 Cookie

由于HTTP是一种无状态的协议,所以在客户端与服务器之间的数据传输完成后,当次的连接将会关闭,并不会留存相关记录。

再次交互数据需要重新建立连接,因此,服务器无法依据连接来跟踪会话,也无法从连接上知晓用户的历史操作。
这严重阻碍了基于Web应用程序的交互,也影响了用户的交互体验。

为消除HTTP的无状态性带来的负面影响,Cookie机制应运而生。

Cookie本质上是一段文本信息。

爬虫可以使用Cookie机制与服务器保持会话或登录网站。
通过使用Cookie,爬虫可以绕过服务器的验证过程,从而实现模拟登录。

(1)Cookie的存储方式

Cookie由客户端浏览器进行保存,按其存储位置可将Cookie的存储方式分为:

 内存式存储Cookie:
 将Cookie保存在内存中,在浏览器关闭后就会消失,由于其存储时间较短,故也称非持久Cookie或会话Cookie。
 
 硬盘式存储Cookie:
 将Cookie保存在硬盘中,其不会碎浏览器的关闭而消失,除非用户手动清理或Cookie已过期。由于其存储时间过长,故也称持久Cookie。

(2)Cookie的实现过程

客户端请求服务器后,如果服务器需要记录用户状态,服务器会在响应信息中包含一个Set-Cookie响应头,客户端会根据这个响应头存储
Cookie信息。当再次请求服务器时,客户端会在请求信息中包含一个Cookie请求头,而服务器会根据这个请求头进行用户身份、状态等的
校验。

客户端与服务器之间的Cookie的实现过程具体步骤:

1. 客户端请求服务器。客户端请求网站页面,请求头如下:

GET / HTTP/1.1
HOST: tipdm.com

2. 服务器响应请求。Cookie是一种字符串,为“key=value"的形式,服务器需要记录客户端请求的状态,因此在响应头中增加了一个Set-Cookie字段。响应头示例格式如下:

HTTP/1.1 200  OK
Set-Cookie: UserID=tipdm; Max-Age=3600; Version=1
Content-type: text/html
......

3. 客户端再次请求服务器。客户端会对服务器响应的Set-Cookie头信息进行存储。当再次请求时。将会在请求头中包含服务器响应的Cokie信息。请求头示例格式如下:

GET / HTTP/1.0
HOST:tipdm.com
Cookie:UserID=tipdm
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值