1.1 HTTP的原理
通过浏览器访问网页的过程需要使用HTTP进行通信,浏览器作为客户端向网页服务器发送请求,服务器收到请求后
给客户端发送响应。
访问网页时,借助浏览器的开发者工具,可查看网络资源加载情况,分析请求方法类型、请求头字段、响应状态码
和响应头信息。
若需要维护客户端和服务器的通信状态,则需要用到Cookie,可使用浏览器的开发者工具定位Cookie信息,掌握
Cookie的运行机制。
1.2 HTTP的请求方式和过程
HTTP规定了客户端与服务器之间进行网页内容传输时,所必须遵守的传输格式。
HTTP客户端会向服务器发起一个请求,创建一个到服务器指定端口默认是80端口)的传输控制协议(TCP)连接。
HTTP服务器则从该端口监听客户端的请求,一旦接收到请求,服务器会向客户端返回一个响应状态
(如HTTP、1.1 200 OK),服务器还会向客户端返回响应的内容,如请求的文件、错误消息或其他信息。
(1)在HTTP/1.1中,一共定义了8种方法(动作)来以不同方式操作指定的资源。
请求方法名称是区分大小写的。
当某个请求所指定的资源不支持对应的请求方法时,服务器会返回状态码(405)。
当服务器不认识或不支持对应的请求方法时,服务器会返回状态码(501)。
一般情况下,HTTP服务器至少需要实现 GET 和 HEAD 方法,其他方法为可选项。
所有的方法支持的实现都应当匹配方法各自的语法格式。
除下表外,HTTP服务器还能扩展自定义的方法。
(2)请求和响应
HTTP采用请求/响应模型。
客户端向服务器发送一个请求报文,请求报文的内容:请求方法、URL、协议版本、请求头部、请求数据。
服务器以一个状态行作为响应,响应的内容:协议版本、响应状态、服务器信息、响应头部、响应数据。
客户端与服务器间的请求与响应的具体步骤:
1.连接服务器。
由一个客户端(提出为浏览器)发起连接。与服务器的HTTP端口建立一个TCP套接字连接。
2.发送HTTP请求。
客户端经TCP套接字向Web服务器发送一个文本格式的请求报文,一个请求报文由请求行。请求头部、空行、请求数据这4个部分组成。
3.服务器接收请求并返回HTTP响应。
Web服务器解析请求,定位本次的请求资源。之后将资源副本写至TCP套接字,由客户端进行读取。一个响应与一个请求对应,由状态行、响应头部、空行、响应数据这4部分组成。
4.释放TCP连接。
若本次连接的Connection模式为close,则由服务器主动关闭TCP连接,客户端将被动关闭连接,释放TCP连接。若Connection模式为keep-alive,则该连接会保持一段时间,在这段时间内可以继续接收请求与回传响应。
5.客户端解析HTML内容。
客户端首先会对状态行进行解析,查看状态码是否能表明本次请求是成功的。之后解析每一个响应头,响应头告知内容为若干字节的HTML文档和文档的字符集。最后由客户端读取响应HTML数据,根据HTML的语法对其进行格式化,并在窗口显示。
1.3 HTTP的状态码
客户端向服务器端发送请求后,服务器端会根据请求内容给予响应。
不同的HTTP状态码代表了不同的服务器响应状态。
(1)HTTP状态码种类
HTTP状态码是用来表示网页服务器响应状态的3位数字代码。
HTTP的状态码按首位数字分为5类:
(2)常见的HTTP状态码
1.4 HTTP的头部信息
HTTP的头部信息:指在HTTP的请求信息和响应消息中的HTTP头部信息部分。
HTTP的头部信息按用途分成: 通用头、请求头、响应头、实体头。
HTTP头字段被对应分为4种类型:通用头字段、请求头字段、响应头字段、实体头字段。
在头部信息中,定义了一个HTTP事务中的操作参数。
在爬虫中需要使用头部信息向服务器发送模拟信息,并通过发送模拟的头部信息将自己伪装成一般的客户端。
(1)通用头
通用头即适用于客户端的请求头,也适用于服务器的响应头。
其与HTTP消息体内最终传输的数据是无关的,只适用于要发送的消息。
(2)请求头
请求头可提供更为精确的描述信息,其对象为所请求的资源或请求本身。
其中有些缓存相关头描述了缓存信息,这些头会改变GET请求时获取资源的方式,如If-Modified-Since。
新版本增加的请求头不能在旧版本的HTTP中使用,但服务器和客户端若都能对相关头进行处理,则可以在请求中使用。
在这种情况下,客户端不应该假定服务器有对相关头的处理能力,而未知的请求头将被处理为实体头。
(3)响应头
响应头为响应消息提供了更多信息。
与请求头类似,新版本增加的响应头也不能在更旧版本的HTTP中使用。
但是,如果服务器和客户端都能对相关头进行处理,那么可以在响应中使用。
在这种情况下,服务器也不应该假定客户端有对相关头的处理能力,未知的响应头也将被处理为实体头。
(4)实体头
实体头可提供关于消息体的描述。
新版本的实体头可以在更旧版本的HTTP中使用。
1.5 Cookie
由于HTTP是一种无状态的协议,所以在客户端与服务器之间的数据传输完成后,当次的连接将会关闭,并不会留存相关记录。
再次交互数据需要重新建立连接,因此,服务器无法依据连接来跟踪会话,也无法从连接上知晓用户的历史操作。
这严重阻碍了基于Web应用程序的交互,也影响了用户的交互体验。
为消除HTTP的无状态性带来的负面影响,Cookie机制应运而生。
Cookie本质上是一段文本信息。
爬虫可以使用Cookie机制与服务器保持会话或登录网站。
通过使用Cookie,爬虫可以绕过服务器的验证过程,从而实现模拟登录。
(1)Cookie的存储方式
Cookie由客户端浏览器进行保存,按其存储位置可将Cookie的存储方式分为:
内存式存储Cookie:
将Cookie保存在内存中,在浏览器关闭后就会消失,由于其存储时间较短,故也称非持久Cookie或会话Cookie。
硬盘式存储Cookie:
将Cookie保存在硬盘中,其不会碎浏览器的关闭而消失,除非用户手动清理或Cookie已过期。由于其存储时间过长,故也称持久Cookie。
(2)Cookie的实现过程
客户端请求服务器后,如果服务器需要记录用户状态,服务器会在响应信息中包含一个Set-Cookie响应头,客户端会根据这个响应头存储
Cookie信息。当再次请求服务器时,客户端会在请求信息中包含一个Cookie请求头,而服务器会根据这个请求头进行用户身份、状态等的
校验。
客户端与服务器之间的Cookie的实现过程具体步骤:
1. 客户端请求服务器。客户端请求网站页面,请求头如下:
GET / HTTP/1.1
HOST: tipdm.com
2. 服务器响应请求。Cookie是一种字符串,为“key=value"的形式,服务器需要记录客户端请求的状态,因此在响应头中增加了一个Set-Cookie字段。响应头示例格式如下:
HTTP/1.1 200 OK
Set-Cookie: UserID=tipdm; Max-Age=3600; Version=1
Content-type: text/html
......
3. 客户端再次请求服务器。客户端会对服务器响应的Set-Cookie头信息进行存储。当再次请求时。将会在请求头中包含服务器响应的Cokie信息。请求头示例格式如下:
GET / HTTP/1.0
HOST:tipdm.com
Cookie:UserID=tipdm