从HTTP协议演进理解HTTP协议

首先什么是HTTP协议?
HTTP(HyperText Transfer Protocol)协议从字面意思是超文本传输协议。百度百科对超文本的解释是:超文本是用超链接的方法,将各种不同空间的文字信息组织在一起的网状文本。简单来说就是可以链接的文本,该文本不再是简单的只包含文字的文本,还包括图片、声音、视频等。其中HTML就是一种超文本语言。那么就很自然了,可以暂且理解为是为了传输HTML的一种协议。0.9版的HTTP协议就是专门为了传输HTML页面的。以下是它的演进:
1、HTTP0.9版 (1991)
这个版本就是最初用来向客户端传输HTML页面的,所以只有一个GET命令,然后服务器返回客户端一个HTML页面(纯文本),不能是其他格式。利用这个版本完全可以构建一个简单的静态网站。这在纯静态网页年代已经是一个质的突破了。但是由于无法向服务器POST数据,后来就被淘汰了。
2、HTTP1.0 (1996)
根据0.9版本最大的缺点可知,1.0版本肯定可以支持POST数据给服务器,除了POST还增加了HEAD获取报文头部。而且这个版本还支持传输二进制文件(包括图片、视频等)。请求消息还有响应消息也增加了一些元数据字段。例如:Accept-Encoding、Accept-Charset、status等。1.0最大的缺点就是效率问题。由于HTTP协议基于TCP协议,1.0版本的一次请求就是一次TCP连接,请求完成之后TCP就断开,然后下一次重新建立连接,我们知道TCP著名的三次握手,建立一次连接需要经过三次握手,断开又需要四次挥手,再加上TCP协议的流量控制以及拥塞机制(流量控制是接收放根据自己窗口大小通过ACK告诉发送方不要传太快,拥塞机制是为了防止过多的数据注入到网络中,而常用的方式就是慢启动,刚刚建立连接时传输速度慢。),这样大大降低了传输的效率。我们知道,一个页面不只是一次页面请求,一个页面里面还包括css、js、图片的资源,这些资源也是需要分别取请求的,如果每次请求都包括TCP的建立连接与断开那速度就可想而知了。这是我在访问腾讯网的时候的采用Fiddle抓取的请求信息,可以看到除了请求www.qq.com后面还有一大堆请求
请求的类型也是多种多样,下面还有js和css文件的请求就没有贴出来了
3、HTTP 1.1版本 (1997)
根据1.0的缺点,1.1肯定也会解决效率问题。解决的办法就是增加持久连接,也就是默认设置Connection:keep-alive(注意不是永久连接,不同的服务器保持时间不一致,可以在服务器中进行配置,比如apache可以设置MaxKeepAliveRequests这里写图片描述).而且还引入了管线化,一次TCP连接可以同时发送多个HTTP请求,不用等待上一个请求成功后再发送。但是注意只有GET、HEAD支持管线化,而且只有保持连接的才可以管线化,所以对于HTTP1.0不支持,所以在初次建立连接时不建议采用管线化,避免服务器不支持管线化。采用Fiddle的时候我也注意到,在访问www.qq.com的时候抓起有一段时间是只有www.qq.com的,后面就有一批请求信息同时出现,我想大概就是这么一个原因吧。
那么就说说1.1版本的缺陷,之前说到管线的有点,那么它同时还有一个小瑕疵,那就是当一组请求到了服务器端之后还是要经过排队处理,无法进行多工操作。
4、HTTP 2版本 (2015)
针对1.1版本的缺陷就有了2.0版本了,这个版本在一组请求到了服务器端之后能进行多路复用,可以同时处理依据请求和和响应。还增加了头信息压缩可以降低开销。服务器可以再客户端进行解析HTML和发送内嵌资源时主动推送服务器觉得客户端需要的响应到客户端缓存当中,避免了往返延迟。不再采用文本协议采用了二进制协议,我们都知道二进制的一大特点就是错误比较少,所以采用二进制协议可以减少错误。
5、HTTPS
https是HTTP协议的安全版本,HTTP协议的数据传输是明文的,是不安全的,就像我现在可以用fiddle可以获取到请求头信息和响应头信息。HTTPS使用了SSL/TLS协议进行了加密处理。

以上及时HTTP的演进。接下来再说说HTTP的特点
1、HTTP协议是无状态的
无状态的简单理解就是每次的HTTP请求都是独立的,任何两个请求之间没有什么联系。但是按照我们的平时浏览网页的经验,好像也不是那么回事啊。比如你登陆过一个网站之后,一直会显示着登陆的状态,在比如在淘宝购物车功能里面,在不同的页面买的东西也会汇集到一个购物车里面,这些工作是谁做的呢?答案就是浏览器端的Cookie机制和服务器端的Session机制,这两种机制保存一些用户的会话信息,包括上面的登陆用户信息和购物车信息等。
2、一个页面多次HTTP请求
这个我在上面已经说过了,当请求以页面时还得请求这个页面上的一些资源,包括js、css、图片、视频等。
3、基于TCP协议
这也在上面提到过了。HTTP协议目的是规定客户端和服务端数据传输的格式和数据交互行为,并不负责数据传输的细节。底层是基于TCP实现的。现在使用的版本当中是默认持久连接的,也就是多次HTTP请求使用一个TCP连接。

接下来要详细剖析一下HTTP的结构(分为请求报文和响应报文)

1、请求报文
直接上图
这就是一个请求报文
我再打开一个具体的请求报文
这是用fiddle打开的一个请求报文
首先是Request line(开始行)
包括方法、方法、URL、协议,对应下图的GET方法。/表示当前目录。协议是HTTP协议的1.1版本.
接下来就是响应头:包括各种元字段,我用另一个专门的请求头信息来说明一下:
请求头信息

首先是cache头域:
If-Modified-Since:把浏览器端缓存页面的最后修改时间发送到服务器去,服务器会把这个时间与服务器上实际文件的最后修改时间进行对比。如果时间一致,那么返回304,客户端就直接使用本地缓存文件。如果时间不一致,就会返回200和新的文件内容。客户端接到之后,会丢弃旧文件,把新文件缓存起来,并显示在浏览器中.
If-None-Match:和ETag一起工作,工作原理是在HTTP Response中添加ETag信息。 当用户再次请求该资源时,将在HTTP Request 中加入If-None-Match信息(ETag的值)。如果服务器验证资源的ETag没有改变(该资源没有更新),将返回一个304状态告诉客户端使用本地缓存文件。否则将返回200状态和新的资源和Etag. 使用这样的机制将提高网站的性能
max-age=[秒] — 执行缓存被认为是最新的最长时间此处为0秒表示要最新时刻才认为是新数据。
Accept: / 代表浏览器可以处理所有类型
Accept-Encoding:浏览器申明自己接收的编码方法,通常指定压缩方法,是否支持压缩,支持什么压缩方法
Accept-Language:指明要接受的语言类型。这里zh-CN是值中文。
User-Agent:告诉HTTP服务器, 客户端使用的操作系统和浏览器的名称和版本。这个也是服务器能够了解到客户端的信息的方式。比如这里提供的信息有:浏览器类型/版本(我这里用的是火狐)、系统版本(我这里用的是win7 64位系统)等等。

Cookie头域就不用多说了,是最重要的部分,将会话数据发送给服务器。

Miscellaneous 头域
作用: 提供了Request的上下文信息的服务器,告诉服务器我是从哪个链接过来的,比如从我主页上链接到一个朋友那里,他的服务器就能够从HTTP Referer中统计出每天有多少用户点击我主页上的链接访问他的网站。(这里显示我是从火狐主页跑过来的)

Transport 头域
Connection
例如: Connection: keep-alive 当一个网页打开完成后,客户端和服务器之间用于传输HTTP数据的TCP连接不会关闭,如果客户端再次访问这个服务器上的网页,会继续使用这一条已经建立的连接

例如: Connection: close 代表一个Request完成后,客户端和服务器之间用于传输HTTP数据的TCP连接会关闭, 当客户端再次发送Request,需要重新建立TCP连接。

Host(发送请求时,该报头域是必需的)
作用: 请求报头域主要用于指定被请求资源的Internet主机和端口号,它通常从HTTP URL中提取出来的
例如: 我们在浏览器中输入:http://www.qq.com/
浏览器发送的请求消息中,就会包含Host请求报头域,如下:
Host:http://www.qq.com/
此处使用缺省端口号80,若指定了端口号,则变成:Host:指定端口号

2、响应报文
这里附上一张响应头信息的图片,大家慢慢领会,跟请求都信息差不多
响应头信息

3、这里说一下常见的响应状态码
 状态码是用来告知客户端服务器端处理请求的结果。凭借状态码用户可以知道服务器是请求处理成功、失败或者是被转发;这样出现了错误也好定位。状态码是由3位数字加原因短语组成。3位数字中的第一位是用来指定状态的类别。共有5种。
五种状态类别

  HTTP状态码一共有60多种,但是不用全部都记住,因为大部分在工作当中是不经常使用的。经常使用的大概就是16种,下面来详细介绍。(其实最最常用的也就8种,下面有背景色的就是)

  1. 200:OK

  这个没有什么好说的,是代表请求被正常的处理成功了。

  2. 204:No Content

  请求处理成功,但是没有数据实体返回,也不允许有实体返回。比如说HEAD请求,可能就会返回204 No Content,因为HEAD就是只获取头信息。这里简单提一下205 Reset Content,和204 No Content的区别是不但没有数据实体返回,而且还需要重置表单,方便用户再次输入。

  3. 206:Partial Content

  这是客户端使用Content-Range指定了需要的实体数据的范围,然后服务端处理请求成功之后返回用户需要的这一部分数据而不是全部,执行的请求就是GET。返回码就是206:Partial Content。

  4. 301 : Moved Permanently

  代表永久性定向。该状态码表示请求的资源已经被分配了新的URL,以后应该使用资源现在指定的URL。也就是说如果已经把资源对应的URL保存为书签了,这是应该按照Location首部字段提示的URL重新保存。

  5. 302:Found

  代表临时重定向。该状态码表示请求的资源已经被分配了新的URL,但是和301的区别是302代表的不是永久性的移动,只是临时的。就是说这个URL还可能会发生改变。如果保存成书签了也不会更新。

  6. 303:See Other

  和302的区别是303明确规定客户端应当使用GET方法。

  7. 304:Not Modified

  该状态码表示客户端发送附带条件请求时,服务器端允许请求访问资源,但是没有满足条件。304状态码返回时不包含任何数据实体。304虽然被划分在3XX中但是和重定向没有关系。

  8. 307:Temporary Redirect

  临时重定向,与302 Found相同,但是302会把POST改成GET,而307就不会。

  9. 400:Bad Request

  400表示请求报文中存在语法错误。需要修改后再次发送。

  10. 401:Unauthorized

  该状态码表示发送的请求需要有通过HTTP认证的认证信息。

  11. 403:Forbidden

  表明请求访问的资源被拒绝了。没有获得服务器的访问权限,IP被禁止等。

  12. 404:Not Found

  表明请求的资源在服务器上找不到。当然也可以在服务器拒绝请求且不想说明理由时使用。

  13. 408:Request Timeout

  表示客户端请求超时,就是在客户端和服务器建立连接后服务器在一定时间内没有收到客户端的请求。

  14. 500:Internal Server Error

  表明服务器端在执行请求时发生了错误,很有可能是服务端程序的Bug或者临时故障。

  15. 503:Service Unavailable

  表明服务器暂时处于超负载或正在进行停机维护,现在无法处理请求。如果事先得知解除以上状况需要的时间,最好写入Retry-After字段再返回给客户端。

  16. 504:Getaway Timeout

  网关超时,是代理服务器等待应用服务器响应时的超时,和408 Request Timeout的却别就是504是服务器的原因而不是客户端的原因

That’s all .Thank for reading.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值