【Python爬虫】HTTP

大数据小羊羔

已于 2024-08-30 16:19:06 修改

阅读量1.1k

点赞数 30

文章标签：爬虫 http 网络协议

于 2024-08-27 20:45:39 首次发布

本文链接：https://blog.csdn.net/By18825481262/article/details/141610488

版权

1.1 HTTP的原理

通过浏览器访问网页的过程需要使用HTTP进行通信，浏览器作为客户端向网页服务器发送请求，服务器收到请求后
给客户端发送响应。

访问网页时，借助浏览器的开发者工具，可查看网络资源加载情况，分析请求方法类型、请求头字段、响应状态码
和响应头信息。

若需要维护客户端和服务器的通信状态，则需要用到Cookie，可使用浏览器的开发者工具定位Cookie信息，掌握
Cookie的运行机制。

1.2 HTTP的请求方式和过程

HTTP规定了客户端与服务器之间进行网页内容传输时，所必须遵守的传输格式。

HTTP客户端会向服务器发起一个请求，创建一个到服务器指定端口默认是80端口）的传输控制协议（TCP）连接。

HTTP服务器则从该端口监听客户端的请求，一旦接收到请求，服务器会向客户端返回一个响应状态
（如HTTP、1.1 200 OK），服务器还会向客户端返回响应的内容，如请求的文件、错误消息或其他信息。

（1）在HTTP/1.1中，一共定义了8种方法（动作）来以不同方式操作指定的资源。

请求方法名称是区分大小写的。

当某个请求所指定的资源不支持对应的请求方法时，服务器会返回状态码（405）。
当服务器不认识或不支持对应的请求方法时，服务器会返回状态码（501）。

一般情况下，HTTP服务器至少需要实现 GET 和 HEAD 方法，其他方法为可选项。
所有的方法支持的实现都应当匹配方法各自的语法格式。

除下表外，HTTP服务器还能扩展自定义的方法。

在这里插入图片描述

（2）请求和响应

HTTP采用请求/响应模型。

客户端向服务器发送一个请求报文，请求报文的内容：请求方法、URL、协议版本、请求头部、请求数据。
服务器以一个状态行作为响应，响应的内容：协议版本、响应状态、服务器信息、响应头部、响应数据。

客户端与服务器间的请求与响应的具体步骤：

1.连接服务器。
由一个客户端（提出为浏览器）发起连接。与服务器的HTTP端口建立一个TCP套接字连接。

2.发送HTTP请求。
客户端经TCP套接字向Web服务器发送一个文本格式的请求报文，一个请求报文由请求行。请求头部、空行、请求数据这4个部分组成。

3.服务器接收请求并返回HTTP响应。
Web服务器解析请求，定位本次的请求资源。之后将资源副本写至TCP套接字，由客户端进行读取。一个响应与一个请求对应，由状态行、响应头部、空行、响应数据这4部分组成。

4.释放TCP连接。
若本次连接的Connection模式为close，则由服务器主动关闭TCP连接，客户端将被动关闭连接，释放TCP连接。若Connection模式为keep-alive，则该连接会保持一段时间，在这段时间内可以继续接收请求与回传响应。

5.客户端解析HTML内容。
客户端首先会对状态行进行解析，查看状态码是否能表明本次请求是成功的。之后解析每一个响应头，响应头告知内容为若干字节的HTML文档和文档的字符集。最后由客户端读取响应HTML数据，根据HTML的语法对其进行格式化，并在窗口显示。

1.3 HTTP的状态码

客户端向服务器端发送请求后，服务器端会根据请求内容给予响应。
不同的HTTP状态码代表了不同的服务器响应状态。

（1）HTTP状态码种类

HTTP状态码是用来表示网页服务器响应状态的3位数字代码。

HTTP的状态码按首位数字分为5类：

在这里插入图片描述

（2）常见的HTTP状态码

在这里插入图片描述

1.4 HTTP的头部信息

HTTP的头部信息：指在HTTP的请求信息和响应消息中的HTTP头部信息部分。

HTTP的头部信息按用途分成： 通用头、请求头、响应头、实体头。
HTTP头字段被对应分为4种类型：通用头字段、请求头字段、响应头字段、实体头字段。

在头部信息中，定义了一个HTTP事务中的操作参数。
在爬虫中需要使用头部信息向服务器发送模拟信息，并通过发送模拟的头部信息将自己伪装成一般的客户端。

在这里插入图片描述

（1）通用头

通用头即适用于客户端的请求头，也适用于服务器的响应头。
其与HTTP消息体内最终传输的数据是无关的，只适用于要发送的消息。

在这里插入图片描述

（2）请求头

请求头可提供更为精确的描述信息，其对象为所请求的资源或请求本身。
其中有些缓存相关头描述了缓存信息，这些头会改变GET请求时获取资源的方式，如If-Modified-Since。

新版本增加的请求头不能在旧版本的HTTP中使用，但服务器和客户端若都能对相关头进行处理，则可以在请求中使用。
在这种情况下，客户端不应该假定服务器有对相关头的处理能力，而未知的请求头将被处理为实体头。

在这里插入图片描述

（3）响应头

响应头为响应消息提供了更多信息。

与请求头类似，新版本增加的响应头也不能在更旧版本的HTTP中使用。
但是，如果服务器和客户端都能对相关头进行处理，那么可以在响应中使用。
在这种情况下，服务器也不应该假定客户端有对相关头的处理能力，未知的响应头也将被处理为实体头。

在这里插入图片描述

（4）实体头

实体头可提供关于消息体的描述。

新版本的实体头可以在更旧版本的HTTP中使用。

在这里插入图片描述

1.5 Cookie

由于HTTP是一种无状态的协议，所以在客户端与服务器之间的数据传输完成后，当次的连接将会关闭，并不会留存相关记录。

再次交互数据需要重新建立连接，因此，服务器无法依据连接来跟踪会话，也无法从连接上知晓用户的历史操作。
这严重阻碍了基于Web应用程序的交互，也影响了用户的交互体验。

为消除HTTP的无状态性带来的负面影响，Cookie机制应运而生。

Cookie本质上是一段文本信息。

爬虫可以使用Cookie机制与服务器保持会话或登录网站。
通过使用Cookie，爬虫可以绕过服务器的验证过程，从而实现模拟登录。

（1）Cookie的存储方式

Cookie由客户端浏览器进行保存，按其存储位置可将Cookie的存储方式分为：

 内存式存储Cookie：
 将Cookie保存在内存中，在浏览器关闭后就会消失，由于其存储时间较短，故也称非持久Cookie或会话Cookie。
 
 硬盘式存储Cookie：
 将Cookie保存在硬盘中，其不会碎浏览器的关闭而消失，除非用户手动清理或Cookie已过期。由于其存储时间过长，故也称持久Cookie。

（2）Cookie的实现过程

客户端请求服务器后，如果服务器需要记录用户状态，服务器会在响应信息中包含一个Set-Cookie响应头，客户端会根据这个响应头存储
Cookie信息。当再次请求服务器时，客户端会在请求信息中包含一个Cookie请求头，而服务器会根据这个请求头进行用户身份、状态等的
校验。

客户端与服务器之间的Cookie的实现过程具体步骤：

1. 客户端请求服务器。客户端请求网站页面，请求头如下：

GET / HTTP/1.1
HOST: tipdm.com

2. 服务器响应请求。Cookie是一种字符串，为“key=value"的形式，服务器需要记录客户端请求的状态，因此在响应头中增加了一个Set-Cookie字段。响应头示例格式如下：

HTTP/1.1 200  OK
Set-Cookie： UserID=tipdm; Max-Age=3600; Version=1
Content-type: text/html
......

3. 客户端再次请求服务器。客户端会对服务器响应的Set-Cookie头信息进行存储。当再次请求时。将会在请求头中包含服务器响应的Cokie信息。请求头示例格式如下：

GET / HTTP/1.0
HOST:tipdm.com
Cookie:UserID=tipdm

大数据小羊羔

关注

30
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫