Http协议详解

最新推荐文章于 2024-07-30 18:32:04 发布

查洛巴

最新推荐文章于 2024-07-30 18:32:04 发布

阅读量585

点赞数

分类专栏：计算机网络文章标签： http协议

计算机网络专栏收录该内容

3 篇文章 0 订阅

订阅专栏

http协议学习系列

1. 基础概念篇

1.1 介绍

HTTP是Hyper Text Transfer Protocol（超文本传输协议）的缩写。RFC 1945定义了HTTP/1.0版本。其中最著名的就是RFC 2616。RFC 2616定义了今天普遍使用的一个版本——HTTP 1.1。

HTTP是一个应用层协议，由请求和响应构成，是一个标准的客户端服务器模型。HTTP是一个无状态的协议。

1.2 在TCP/IP协议栈中的位置

HTTP协议通常承载于TCP协议之上，有时也承载于TLS或SSL协议层之上，这个时候，就成了我们常说的HTTPS。如下图所示：

默认HTTP的端口号为80，HTTPS的端口号为443。

1.3 HTTP的请求响应模型

HTTP协议永远都是客户端发起请求，服务器回送响应。见下图：

这样就限制了使用HTTP协议，无法实现在客户端没有发起请求的时候，服务器将消息推送给客户端。

HTTP协议是一个无状态的协议，同一个客户端的这次请求和上次请求是没有对应关系。

1.4 工作流程

HTTP会话可分为四步：

1)建立TCP连接

2)发送请求报文

3)发出响应报文

4)释放TCP连接

1.5 使用Wireshark抓TCP、http包

例如在浏览器中打开http://image.baidu.com/，抓包如图3所示：

图3 抓包

在上图中，可清晰的看到客户端浏览器（ip为192.168.2.33）与服务器的交互过程：

1）No1：浏览器（192.168.2.33）向服务器（220.181.50.118）发出连接请求。此为TCP三次握手第一步，此时从图中可以看出，为[SYN]，ACK=0 SYN=1，Seq=X （x=0）

2）No2：服务器（220.181.50.118）回应了浏览器（192.168.2.33）的请求，并要求确认，此时为：[SYN，ACK]此时

ACK=1 SYN=1， Seq=Y（y为0）AckSeq=x+1(为1) 此为三次握手的第二步；

3）No3：浏览器（192.168.2.33）回应了服务器（220.181.50.118）的确认，连接成功。为：[ACK]，此时

ACK=1，SYN=0，Seq=x+1(为1) AckSeq=y+1(为1) 此为三次握手的第三步；

4）No4：浏览器（192.168.2.33）发出一个页面HTTP请求；

5）No5：服务器（220.181.50.118）确认；

6）No6：服务器（220.181.50.118）发送数据；

7）No7：客户端浏览器（192.168.2.33）确认；

8）No14：客户端（192.168.2.33）发出一个图片HTTP请求；

9）No15：服务器（220.181.50.118）发送状态响应码200 OK

……

2. HTTP请求报文详解

2.1 头域

每个头域由一个域名，冒号（:）和域值三部分组成。域名是大小写无关的，域值前可以添加任何数量的空格符，头域可以被扩展为多行，在每行开始处，使用至少一个空格或制表符。

HTTP最常见的请求头如下：

l Accept：浏览器可接受的MIME类型；

l Accept-Charset：浏览器可接受的字符集；

l Accept-Encoding：浏览器能够进行解码的数据编码方式，比如gzip。Servlet能够向支持gzip的浏览器返回经gzip编码的HTML页面。许多情形下这可以减少5到10倍的下载时间；

l Accept-Language：浏览器所希望的语言种类，当服务器能够提供一种以上的语言版本时要用到；

l Authorization：来告知服务器,用户代理的认证信息(证书值);

CacheControl:控制缓存行为:

请求缓存指令：

no-cache：客户端不接受缓存过的响应，于是, “ 中间 ” 的缓存服务器必须把客户端请求转发给源服务器

no-store：指令规定缓存不能在本地存储请求或响应的任一部分。

响应缓存指令：

public:其他用户也可以使用缓存。

private：只给特定的用户提供缓存。

no-cache：那么缓存服务器不能对资源进行缓存。源服务器以后也将不再对缓存服务器请求中提出的资源有效性进行确认,且禁止其对响应资源进行缓存操作。

no-store：指令规定缓存不能在本地存储请求或响应的任一部分。

l Connection：1.表示是否需要持久连接。（HTTP 1.1默认进行持久连接），它就可以利用持久连接的优点，当页面包含多个元素时（例如Applet，图片），显著地减少下载所需要的时间。2.控制不再转发给代理的首部字段。

l Content-Length：表示请求消息正文的长度；

l Cookie：这是最重要的请求头信息之一，存放的是cookie id。

Date:表示创建Http报文的时间和日期

l From：请求发送者的email地址，由一些特殊的Web客户程序使用，浏览器不会用到它；

l Host：初始URL中的主机和端口；

l If-Modified-Since：只有当所请求的内容在指定的日期之后又经过修改才返回它，否则返回304“Not Modified”应答；

l Pragma：指定“no-cache”值表示服务器必须返回一个刷新后的文档，即使它是代理服务器而且已经有了页面的本地拷贝；

l Referer：告诉服务器我是从哪个链接过来的。首部字段 Referer 会告知服务器请求的原始资源的 URI 。

l User-Agent：浏览器类型，如果Servlet返回的内容与浏览器类型有关则该值非常有用；

Upgrade:首部字段 Upgrade 用于检测 HTTP 协议及其他协议是否可使用更高的版本进行通信,其参数值可以用来指定
一个完全不同的通信协议

2.2 请求方法

Get: 请求访问已被URI识别的资源。（1.0/1.1）

Post:向指定的资源提交要被处理的数据，请求实在消息的主体中发送的。（1.0/1.1）

Head:与Get相同，但只返回Http报头，不返回文档主体。用于确认 URI 的有效性及资源更新的日期时间等。（1.0/1.1）

Put：传输文件，请求报文的主体中包含文件内容,然后保存到请求 URI 指定的位置。（1.0/1.1）

Delete:DELETE 方法按请求 URI 删除指定的资源。 (1.0/1.1）

Options:OPTIONS 方法用来查询针对请求 URI 指定的资源支持的方法。 (1.1)

Trace:回显服务器收到的请求，主要用于测试和诊断。 (1.1)

Connect:在与代理服务器通信时建立隧道，使用隧道协议进行TCP通信。 (1.1)

3. HTTP响应报文详解

3.1 响应首部字段

Accept-Ranges： 首部字段 Accept-Ranges 是用来告知客户端服务器是否能处理范围请求

l Date：当前的GMT时间。你可以用setDateHeader来设置这个头以避免转换时间格式的麻烦；

l Location：使用首部字段 Location 可以将响应接收方引导至某个与请求 URI 位置不同的资源

l Refresh：表示浏览器应该在多少时间之后刷新文档，以秒计。

3.2实体首部字段

实体头用坐实体内容的元信息，描述了实体内容的属性，包括实体信息类型，长度，压缩方法，最后一次修改时间，数据有效性等。

l Allow：服务器支持哪些请求方法（如GET、POST等）；

l Content-Encoding：文档的编码（Encode）方法，例如：gzip，见“2.5 响应头”；

l Content-Language：内容的语言类型，例如：zh-cn；

l Content-Length：表示内容长度，eg：80，可参考“2.5响应头”；

l Content-Location：首部字段 Content-Location 给出与报文主体部分相对应的 URI。

l Content-MD5：客户端会对接收的报文主体执行相同的 MD5 算法,然后与首部字段 Content-MD5 的字段值比较。

l Content-Range：随部分实体一同发送；标明被插入字节的低位与高位字节偏移，也标明此实体的总长度。Eg1：Content-Range: 1001-2000/5000，eg2：bytes 2543-4532/7898

l Content-Type：标明发送或者接收的实体的MIME类型。Eg：text/html; charset=GB2312 主类型/子类型；

l Expires：为0证明不缓存；首部字段 Expires 会将资源失效的日期告知客户端。缓存服务器在接收到含有首部字段 Expires 的响应后,会以缓存来应答请求,在 Expires 字段值指定的时间之前,响应的副本会一直被保存。当超过指定的时间后,
缓存服务器在请求发送过来时,会转向源服务器请求资源。

l Last-Modified：文档的最后改动时间。客户可以通过If-Modified-Since请求头提供一个日期，该请求将被视为一个条件GET，只有改动时间迟于指定时间的文档才会返回，否则返回一个304（Not Modified）状态。Last-Modified也可用setDateHeader方法来设置；

3.3扩展头

在HTTP消息中，也可以使用一些再HTTP1.1正式规范里没有定义的头字段，这些头字段统称为自定义的HTTP头或者扩展头，他们通常被当作是一种实体头处理。

现在流行的浏览器实际上都支持Cookie,Set-Cookie,Refresh和Content-Disposition等几个常用的扩展头字段。

l Refresh：1;url=http://www.dfdf.org //过1秒跳转到指定位置；

l Content-Disposition：头字段,可参考“2.5响应头”；

l Content-Type：WEB 服务器告诉浏览器自己响应的对象的类型。

3.4 http的状态响应码

	类别	原因短语
1XX	Informational (信息性状态码)	接收的请求正在处理
2XX	Success (成功状态码)	请求正常处理完毕
3XX	Redirection (重定向状态码)	需要进行附加操作以完成请求
4XX	Client Error (客户端错误状态码)	服务器无法处理请求
5XX	Server Error (服务器错误状态码)	服务器处理请求出错

100~199请求收到，继续处理

100——客户必须继续发出请求

101——客户要求服务器根据请求转换HTTP协议版本

200~299操作成功收到，分析、接受

200——表示从客户端发来的请求在服务器端被正常处理了。

204——该状态码代表服务器接收的请求已成功处理,但在返回的响应报文中不含实体的主体部分。

206——服务器已经完成了部分用户的GET请求。

300~399完成此请求必须进一步处理

301——永久性重定向。该状态码表示请求的资源已被分配了新的 URI ,以后应使用资源现在所指的 URI 。也就是说,
如果已经把资源对应的 URI 保存为书签了,这时应该按 Location 首部字段提示的 URI 重新保存。

302——临时性重定向。该状态码表示请求的资源已被分配了新的 URI ,希望用户(本次)能使用新的 URI 访问。

303——该状态码表示由于请求对应的资源存在着另一个 URI ,应使用 GET 方法定向获取请求的资源。
303 状态码和 302 Found 状态码有着相同的功能,但 303 状态码明确表示客户端应当采用 GET 方法获取资
源,这点与 302 状态码有区别。

304——客户端已经执行了GET，但文件未变化。304 状态码返回时,不包含任何响应的主体部分。

400~499：请求包含一个错误语法或不能完成

400——该状态码表示请求报文中存在语法错误。当错误发生时,需修改请求的内容后再次发送请求

401——该状态码表示发送的请求需要有通过 HTTP 认证( BASIC 认证、 DIGEST 认证)的认证信息。

403——该状态码表明对请求资源的访问被服务器拒绝了。

404——该状态码表明服务器上无法找到请求的资源。除此之外,也可以在服务器端拒绝请求且不想说明理由时使
用。

500~599：服务器执行一个完全有效请求失败

500--------该状态码表明服务器端在执行请求时发生了错误。也有可能是 Web 应用存在的 bug 或某些临时的故障。

503--------该状态码表明服务器暂时处于超负载或正在进行停机维护,现在无法处理请求.

4.Cookie和Session

Cookie和Session都为了用来保存状态信息，都是保存客户端状态的机制，它们都是为了解决HTTP无状态的问题而所做的努力。

Session可以用Cookie来实现，也可以用URL回写的机制来实现。用Cookie来实现的Session可以认为是对Cookie更高级的应用。

4.1两者比较

Cookie和Session有以下明显的不同点：

1）Cookie将状态保存在客户端，Session将状态保存在服务器端；

2）Cookies是服务器在本地机器上存储的小段文本并随每一个请求发送至同一个服务器。Cookie最早在RFC2109中实现，后续RFC2965做了增强。网络服务器用HTTP头向客户端发送cookies，在客户终端，浏览器解析这些cookies并将它们保存为一个本地文件，它会自动将同一服务器的任何请求缚上这些cookies。Session并没有在HTTP的协议中定义；

3）Session是针对每一个用户的，变量的值保存在服务器上，用一个sessionID来区分是哪个用户session变量,这个值是通过用户的浏览器在访问的时候返回给服务器，当客户禁用cookie时，这个值也可能设置为由get来返回给服务器；

4）就安全性来说：当你访问一个使用session 的站点，同时在自己机子上建立一个cookie，建议在服务器端的SESSION机制更安全些.因为它不会任意读取客户存储的信息。

4.2 Session机制

Session机制是一种服务器端的机制，服务器使用一种类似于散列表的结构（也可能就是使用散列表）来保存信息。

当程序需要为某个客户端的请求创建一个session的时候，服务器首先检查这个客户端的请求里是否已包含了一个session标识 - 称为 session id，如果已包含一个session id则说明以前已经为此客户端创建过session，服务器就按照session id把这个 session检索出来使用（如果检索不到，可能会新建一个），如果客户端请求不包含session id，则为此客户端创建一个session并且生成一个与此session相关联的session id，session id的值应该是一个既不会重复，又不容易被找到规律以仿造的字符串，这个 session id将被在本次响应中返回给客户端保存。

4.3 Session的实现方式

4.3.1使用Cookie来实现

服务器给每个Session分配一个唯一的JSESSIONID，并通过Cookie发送给客户端。

当客户端发起新的请求的时候，将在Cookie头中携带这个JSESSIONID。这样服务器能够找到这个客户端对应的Session。

流程如下图所示：

4.3.4 使用URL回显来实现

URL回写是指服务器在发送给浏览器页面的所有链接中都携带JSESSIONID的参数，这样客户端点击任何一个链接都会把JSESSIONID带会服务器。

如果直接在浏览器输入服务端资源的url来请求该资源，那么Session是匹配不到的。

Tomcat对Session的实现，是一开始同时使用Cookie和URL回写机制，如果发现客户端支持Cookie，就继续使用Cookie，停止使用URL回写。如果发现Cookie被禁用，就一直使用URL回写。jsp开发处理到Session的时候，对页面中的链接记得使用response.encodeURL() 。

4.4 在J2EE项目中Session失效的几种情况

1）Session超时：Session在指定时间内失效，例如30分钟，若在30分钟内没有操作，则Session会失效，例如在web.xml中进行了如下设置：

<session-config>
<session-timeout>30</session-timeout> //单位：分钟
</session-config>

2）使用session.invalidate()明确的去掉Session。

4.4 与Cookie相关的HTTP扩展头

1）Cookie：客户端将服务器设置的Cookie返回到服务器；

2）Set-Cookie：服务器向客户端设置Cookie；

3）Cookie2 (RFC2965)）：客户端指示服务器支持Cookie的版本；

4）Set-Cookie2 (RFC2965)：服务器向客户端设置Cookie。

4.6 Cookie的流程

服务器在响应消息中用Set-Cookie头将Cookie的内容回送给客户端，客户端在新的请求中将相同的内容携带在Cookie头中发送给服务器。从而实现会话的保持。

流程如下图所示：

5.GET与POST的区别

1、GET请求，请求的数据会附加在URL之后，以?分割URL和传输数据，多个参数用&连接。URL的编码格式采用的是ASCII编码，而不是unicode，即是说所有的非ASCII字符都要编码之后再传输。
POST请求：POST请求会把请求的数据放置在HTTP请求包的实体中。因此，GET请求的数据会暴露在地址栏中，而POST请求则不会。

2.在HTTP规范中，没有对URL的长度和传输的数据大小进行限制，1024字节。但是在实际开发过程中，对于GET，特定的浏览器和服务器对URL的长度有限制。因此，在使用GET请求时，传输数据会受到URL长度的限制

对于POST，由于不是URL传值，理论上是不会受限制的，但是实际上各个服务器会规定对POST提交数据大小进行限制，Apache、IIS都有各自的配置。
3. Get是向服务器发索取数据的一种请求，而Post是向服务器提交数据的一种请求

4. POST的安全性比GET的高。比如，在进行登录操作，通过GET请求，用户名和密码都会暴露再URL上，因为登录页面有可能被浏览器缓存以及其他人查看浏览器的历史记录的原因，此时的用户名和密码就很容易被他人拿到了

6.HTTP1.0和HTTP1.1的区别

1,长链接。

HTTP 1.0规定浏览器与服务器只保持短暂的连接，浏览器的每次请求都需要与服务器建立一个TCP连接，服务器完成请求处理后立即断开TCP连接，服务器不跟踪每个客户也不记录过去的请求。此外，由于大多数网页的流量都比较小，一次TCP连接很少能通过slow-start区，不利于提高带宽利用率。

HTTP 1.1支持长连接（PersistentConnection）和请求的流水线（Pipelining）处理，在一个TCP连接上可以传送多个HTTP请求和响应，减少了建立和关闭连接的消耗和延迟。例如：一个包含有许多图像的网页文件的多个请求和应答可以在一个连接中传输，但每个单独的网页文件的请求和应答仍然需要使用各自的连接。

HTTP 1.1还允许客户端不用等待上一次请求结果返回，就可以发出下一次请求，但服务器端必须按照接收到客户端请求的先后顺序依次回送响应结果，以保证客户端能够区分出每次请求的响应内容，这样也显著地减少了整个下载过程所需要的时间。

2.Host头域

在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址，因此，请求消息中的URL并没有传递主机名（hostname）。但随着虚拟主机技术的发展，在一台物理服务器上可以存在多个虚拟主机（Multi-homed Web Servers），并且它们共享一个IP地址。

HTTP1.1的请求消息和响应消息都应支持Host头域，且请求消息中如果没有Host头域会报告一个错误（400 Bad Request）。此外，服务器应该接受以绝对路径标记的资源请求。

3.请求方法

http1.1增加了OPTIONS,TRACE,CONNECT

4.状态码
状态响应码1xx的使用。

7.如何维持长链接？

首先说一下TCP/IP详解上讲到的TCP保活功能，保活功能主要为服务器应用提供，服务器应用希望知道客户主机是否崩溃，从而可以代表客户使用资源。如果客户已经消失，使得服务器上保留一个半开放的连接，而服务器又在等待来自客户端的数据，则服务器将应远等待客户端的数据，保活功能就是试图在服务器端检测到这种半开放的连接。

如果一个给定的连接在两小时内没有任何的动作，则服务器就向客户发一个探测报文段，客户主机必须处于以下4个状态之一：

客户主机依然正常运行，并从服务器可达。客户的TCP响应正常，而服务器也知道对方是正常的，服务器在两小时后将保活定时器复位。
客户主机已经崩溃，并且关闭或者正在重新启动。在任何一种情况下，客户的TCP都没有响应。服务端将不能收到对探测的响应，并在75秒后超时。服务器总共发送10个这样的探测，每个间隔75秒。如果服务器没有收到一个响应，它就认为客户主机已经关闭并终止连接。
客户主机崩溃并已经重新启动。服务器将收到一个对其保活探测的响应，这个响应是一个复位，使得服务器终止这个连接。
客户机正常运行，但是服务器不可达，这种情况与2类似，TCP能发现的就是没有收到探查的响应。

3.4 https通信过程

3.4.1什么是https

HTTPS（全称：Hypertext Transfer Protocol over Secure Socket Layer），是以安全为目标的HTTP通道，简单讲是HTTP的安全版。即HTTP下加入SSL层，HTTPS的安全基础是SSL，因此加密的详细内容请看SSL。

见下图：

https所用的端口号是443。

3.4.2 https的实现原理

有两种基本的加解密算法类型：

1）对称加密：密钥只有一个，加密解密为同一个密码，且加解密速度快，典型的对称加密算法有DES、AES等；

2）非对称加密：密钥成对出现（且根据公钥无法推知私钥，根据私钥也无法推知公钥），加密解密使用不同密钥（公钥加密需要私钥解密，私钥加密需要公钥解密），相对对称加密速度较慢，典型的非对称加密算法有RSA、DSA等。

下面看一下https的通信过程：

https通信的优点：

1）客户端产生的密钥只有客户端和服务器端能得到；

2）加密的数据只有客户端和服务器端才能得到明文；

3）客户端到服务端的通信是安全的。

3.5 http代理

3.5.1 http代理服务器

代理服务器英文全称是Proxy Server，其功能就是代理网络用户去取得网络信息。形象的说：它是网络信息的中转站。

代理服务器是介于浏览器和Web服务器之间的一台服务器，有了它之后，浏览器不是直接到Web服务器去取回网页而是向代理服务器发出请求，Request信号会先送到代理服务器，由代理服务器来取回浏览器所需要的信息并传送给你的浏览器。

而且，大部分代理服务器都具有缓冲的功能，就好象一个大的Cache，它有很大的存储空间，它不断将新取得数据储存到它本机的存储器上，如果浏览器所请求的数据在它本机的存储器上已经存在而且是最新的，那么它就不重新从Web服务器取数据，而直接将存储器上的数据传送给用户的浏览器，这样就能显著提高浏览速度和效率。

更重要的是：Proxy Server(代理服务器)是Internet链路级网关所提供的一种重要的安全功能，它的工作主要在开放系统互联(OSI)模型的对话层。

3.5.2 http代理服务器的主要功能

主要功能如下：

1）突破自身IP访问限制，访问国外站点。如：教育网、169网等网络用户可以通过代理访问国外网站；

2）访问一些单位或团体内部资源，如某大学FTP(前提是该代理地址在该资源的允许访问范围之内)，使用教育网内地址段免费代理服务器，就可以用于对教育网开放的各类FTP下载上传，以及各类资料查询共享等服务；

3）突破中国电信的IP封锁：中国电信用户有很多网站是被限制访问的，这种限制是人为的，不同Serve对地址的封锁是不同的。所以不能访问时可以换一个国外的代理服务器试试；

4）提高访问速度：通常代理服务器都设置一个较大的硬盘缓冲区，当有外界的信息通过时，同时也将其保存到缓冲区中，当其他用户再访问相同的信息时，则直接由缓冲区中取出信息，传给用户，以提高访问速度；

5）隐藏真实IP：上网者也可以通过这种方法隐藏自己的IP，免受攻击。

3.5.3 http代理图示

http代理的图示见下图：

对于客户端浏览器而言，http代理服务器相当于服务器。

而对于Web服务器而言，http代理服务器又担当了客户端的角色。

3.6 虚拟主机的实现

3.6.1什么是虚拟主机

虚拟主机：是在网络服务器上划分出一定的磁盘空间供用户放置站点、应用组件等，提供必要的站点功能与数据存放、传输功能。

所谓虚拟主机，也叫“网站空间”就是把一台运行在互联网上的服务器划分成多个“虚拟”的服务器，每一个虚拟主机都具有独立的域名和完整的Internet服务器（支持WWW、FTP、E-mail等）功能。一台服务器上的不同虚拟主机是各自独立的，并由用户自行管理。但一台服务器主机只能够支持一定数量的虚拟主机，当超过这个数量时，用户将会感到性能急剧下降。