HTTP 八股文

是个小胖墩儿啊

已于 2023-08-20 22:53:46 修改

阅读量56

点赞数

分类专栏：计算机网络文章标签： http

于 2022-04-06 14:37:14 首次发布

原文链接：https://xiaolincoding.com/network/2_http/http_interview.html#_3-1-http-%E5%B8%B8%E8%A7%81%E9%9D%A2%E8%AF%95%E9%A2%98

版权

计算机网络专栏收录该内容

11 篇文章 0 订阅

订阅专栏

转自：
https://xiaolincoding.com/network/2_http/http_interview.html#_3-1-http-%E5%B8%B8%E8%A7%81%E9%9D%A2%E8%AF%95%E9%A2%98

HTTP 是什么？

HTTP 的名字是「超文本传输协议」，它可以拆成三个部分：超文本、传输、协议。

HTTP 是一个在计算机世界里用于在「两点」之间「传输」文字、图片、音视频等「超文本」数据的「约定和规范」。

HTTP 常见的状态码有哪些？

在这里插入图片描述

1xx

1xx 类状态码属于提示信息，是协议处理中的一种中间状态，实际用到的比较少。

2xx

2xx 类状态码表示服务器成功处理了客户端的请求，也是我们最愿意看到的状态。

「200 OK」是最常见的成功状态码，表示一切正常。如果是非 HEAD 请求，服务器返回的响应头都会有 body 数据
「204 No Content」也是常见的成功状态码，与 200 OK 基本相同，但响应头没有 body 数据
「206 Partial Content」是应用于 HTTP 分块下载或者断点续传，表示响应返回的 body 数据并不是资源的全部，而是其中的一部分，也是服务器处理成功的状态

3xx

3xx 类状态码表示客户端请求的资源发生了变动，需要客户端用新的 URL 重新发送请求获取资源，也就是重定向。

「301 Moved Permanently」表示永久重定向，说明请求的资源已经不存在了，需改用新的 URL 再次访问
「302 Found」表示临时重定向，说明请求的资源还在，但暂时需要用另一个 URL 来访问
301 和 302 都会在响应头里使用字段 Location，指明后续要跳转的 URL，浏览器会自动重定向到新的 URL
「304 Not Modified」不具有跳转的含义，表示资源未修改，重定向已存在的缓存文件，也称缓存重定向，用于缓存控制

4xx

4xx 类状态码表示客户端发送的报文有误，服务器无法处理，也就是错误码的含义。

「400 Bad Request」表示客户端请求的报文有错误，但只是个笼统的错误
「403 Forbidden」表示服务器禁止访问资源，并不是客户端的请求出错
「404 Not Found」表示请求的资源在服务器上不存在或未找到，所以无法提供给客户端

5xx

5xx 类状态码表示客户端请求报文正确，但是服务器处理时内部发生了错误，属于服务器的错误码。

「500 Internal Server Error」与 400 类似，是个笼统通用的错误码，服务器发生了什么错误，我们并不知道
「501 Not Implemented」表示客户端请求的功能还不支持，类似“即将开业，敬请期待”的意思
「502 Bad Gateway」通常是服务器作为网关或者代理时返回的错误码，表示服务器自身工作正常，但访问后端服务器发生了错误
「503 Service Unavailable」表示服务器当前很忙，暂时无法响应服务器，类似“网络服务正忙，请稍后重试”的意思

HTTP 常见字段有哪些？

Host 字段

客户端发送请求时，用来指定服务器的域名。有了 Host 字段，就可以将请求发往「同一台」服务器上的不同网站。

在这里插入图片描述

Content-Length 字段

服务器在返回数据时，会有 Content-Length 字段，表明本次响应的数据长度。

在这里插入图片描述

Connection 字段

Connection 字段最常用于客户端要求服务器使用 TCP 持久连接，以便其他请求复用。HTTP/1.1 版本的默认连接都是持久连接，但为了兼容老版本的 HTTP，需要指定 Connection 首部字段的值为 Keep-Alive，这样一个可以复用的 TCP 连接就建立了，直到客户端或者服务器主动关闭连接，但这并不是标准字段。

在这里插入图片描述

Content-Type 字段

Content-Type 字段用于服务器响应时，告诉客户端，本次数据是什么格式。客户端请求的时候，可以使用 Accept 字段声明自己可以接受哪些数据格式。

在这里插入图片描述

Content-Encoding 字段

Content-Encoding 字段说明数据的压缩方法。表示服务器返回的数据使用了什么压缩格式。客户端在请求时，可以用 Accept-Encoding 字段说明自己可以接受哪些压缩方法。

在这里插入图片描述

GET 与 POST

GET 方法的含义是请求从服务器获取资源，这个资源可以是静态的文本、页面、图片视频等。

比如，当访问某篇文章时，浏览器就会发送 GET 请求给服务器，服务器就会返回文章的所有文字及资源。

而 POST 方法则相反，它向 URI 指定的资源提交数据，数据就放在报文的 body 里。

比如，当在某篇文章底部，敲入了留言后点击「提交」，浏览器就会执行一次 POST 请求，把你的留言文字放进了报文 body 里，然后拼接好 POST 请求头，通过 TCP 协议发送给服务器。

GET 和 POST 方法都是安全和幂等的吗？

先说明下安全和幂等的概念。

在 HTTP 协议里，所谓的「安全」是指请求方法不会「破坏」服务器上的资源
所谓的「幂等」，意思是多次执行相同的操作，结果都是「相同」的

那么很明显 GET 方法就是安全且幂等的，因为它是「只读」操作，无论操作多少次，服务器上的数据都是安全的，且每次的结果一般都是相同的。

而 POST 方法因为是「新增或提交数据」的操作，会修改服务器上的资源，所以是不安全的，且多次提交数据就会创建多个资源，所以不是幂等的。

HTTP

HTTP 最凸出的优点就是「简单、灵活，易于扩展、应用广泛和跨平台」。

简单

HTTP 基本的报文格式就是 header + body，头部信息也是 key-value 简单文本的形式，易于理解，降低了学习和使用的门槛。

灵活和易于扩展

HTTP 协议里的各类请求方法、URI/URL、状态码、头字段等每个组成要求都没有被固定死，都允许开发人员自定义和扩充。

同时 HTTP 由于是工作在应用层（ OSI 第七层），它下层可以随意变化。

HTTPS 也就是在 HTTP 与 TCP 层之间增加了 SSL/TLS 安全传输层，HTTP/3 甚至直接把 TCP 层换成了基于 UDP 的 QUIC。

应用广泛和跨平台

互联网发展至今，HTTP 的应用范围非常广泛，从台式机的浏览器到手机上的各种 APP，从看新闻、刷贴吧到购物、理财、吃鸡，HTTP 的应用遍地开花，同时天然具有跨平台的优越性。

HTTP 的缺点呢

HTTP 协议里有优缺点一体的双刃剑，分别是「无状态、明文传输」，同时「不安全」。

无状态

无状态的好处：因为服务器不会去记忆 HTTP 的状态，所以不需要额外的资源来记录状态信息，这能减轻服务器的负担，能够把更多的 CPU 和内存用来对外提供服务。

无状态的坏处：既然服务器没有记忆能力，它在完成有关联性的操作时会非常麻烦。例如登录 -> 添加购物车 -> 下单 -> 结算 -> 支付，这一系列操作都要知道用户的身份才行。但服务器不知道这些请求是有关联的，每次都要问一遍身份信息。

对于无状态的问题，解法方案有很多种，其中比较简单的方式是用 Cookie 技术。

Cookie 通过在请求和响应报文中写入 Cookie 信息来控制客户端的状态。

相当于在客户端第一次请求后，服务器会下发一个装有客户端信息的「小贴纸」，后续客户端继续请求服务器的时候，带上「小贴纸」，服务器就能认得了。

在这里插入图片描述

明文传输

明文意味着在传输过程中的信息，是可方便阅读的，通过浏览器的 F12 控制台或 Wireshark 抓包都可以直接用肉眼查看，为调试工作带了极大的便利性。

但也这正是如此，HTTP 的所有信息都暴露在外，相当于信息裸奔。在漫长的传输过程中，信息的内容都毫无隐私可言，很容易就能被窃取。

不安全

HTTP 比较严重的缺点就是不安全。

通信使用明文（不加密），内容可能会被窃听
不验证通信方的身份，因此有可能遭遇伪装
无法证明报文的完整性，因此有可能已遭篡改

上述 HTTP 的安全问题，可以用 HTTPS 的方式解决，也就是通过引入 SSL/TLS 层，使得在安全性上达到极致。

HTTP/1.1

HTTP 协议是基于 TCP/IP，并且使用了「请求 - 应答」的通信模式，所以性能的关键就在这两点。

长连接

早期 HTTP/1.0 在性能上存在一个很大的问题，就是每次发起一个请求，都要重新建立一次 TCP 连接（三次握手），而且是串行请求，做了无谓的 TCP 连接建立和断开，增加了通信开销。

为了解决上述的 TCP 连接问题，HTTP/1.1 提出了长连接的通信方式，也叫持久连接。这种方式的好处在于减少了 TCP 连接的重复建立和断开时所造成的额外开销，减轻了服务器的负载。

持久连接的特点是，只要任意一端没有明确提出断开连接，则保持 TCP 的连接状态。

在这里插入图片描述

管道网络传输

HTTP/1.1 采用了长连接的方式，使得管道（pipeline）网络传输成为了可能。

即在同一个 TCP 连接里，客户端可以发起多个请求，只要第一个请求发出去了，不必等其回来，就可以发第二个请求出去，减少整体的响应时间。

举例来说，假设客户端需要请求两个资源。以前的做法是，在同一个 TCP 连接里，先发送 A 请求，然后等待服务器做出响应，收到后再发送 B 请求。而管道机制则是允许同时发出送 A 请求和 B 请求。

在这里插入图片描述

但是服务器还是按照顺序，先响应 A 请求，完成后再响应 B 请求。如果前面的响应特别慢，后面就会有许多请求排队等着。这称为「队头堵塞」。

队头阻塞

「请求 - 应答」的模式加剧了 HTTP 的性能问题。

因为当顺序发送的请求序列中有一个请求因为某种原因被阻塞时，在后面排队的所有请求也会一同被阻塞，最终导致客户端一直请求不到数据，这也就是「队头阻塞」。

在这里插入图片描述

总之 HTTP/1.1 的性能一般，后续的 HTTP/2 和 HTTP/3 就是在优化 HTTP 的性能问题。

HTTPS

HTTP 与 HTTPS 有哪些区别？

HTTP 是超文本传输协议，信息是明文传输，存在安全风险。HTTPS 则解决了 HTTP 不安全的缺陷，在 HTTP 与 TCP 层之间加入了 SSL/TLS 安全协议，使得报文能够加密传输
HTTP 连接建立相对简单， TCP 三次握手之后便可进行报文传输。而 HTTPS 在 TCP 三次握手之后，还需经过 SSL/TLS 的握手过程，才可进入加密报文传输
HTTP 的端口号是 80，HTTPS 的端口号是 443
HTTPS 协议需要向 CA（证书权威机构）申请数字证书，来保证服务器的身份是可信的

在这里插入图片描述

HTTPS 解决了 HTTP 的哪些问题？

由于 HTTP 是明文传输，所以在安全性上存在以下三个风险。

窃听风险，比如在通信链路上可以获取通信内容
篡改风险，比如强制植入垃圾广告
冒充风险，比如冒充淘宝网站

HTTPS 在 HTTP 与 TCP 层之间加入了 SSL/TLS 协议，很好地解决了上述风险。

信息加密

使用混合加密的方式实现了信息的机密性，解决了窃听的风险。

在这里插入图片描述

HTTPS 采用对称加密和非对称加密结合的「混合加密」的方式。

在通信建立前采用非对称加密的方式交换「会话秘钥」，后续就不再使用非对称加密
在通信过程中全部使用对称加密的「会话秘钥」的方式加密明文数据

采用「混合加密」的方式的原因。

对称加密只使用一个密钥，虽然运算速度快，但是密钥必须保密，无法做到安全的密钥交换
非对称加密使用两个密钥：公钥和私钥，公钥可以任意分发而私钥保密，解决了密钥交换问题，但是速度慢

校验机制

使用摘要算法的方式来实现完整性，它能够为数据生成独一无二的「指纹」，指纹用于校验数据的完整性，解决了篡改的风险。

在这里插入图片描述

客户端在发送明文之前会通过摘要算法算出明文的「指纹」，在发送的时候把「指纹 + 明文」一同加密成密文后，发送给服务器。服务器解密后，再用相同的摘要算法算出发送过来的明文，通过比较客户端携带的「指纹」和当前算出的「指纹」，若「指纹」相同，则说明数据是完整的。

身份证书

将服务器公钥放入到数字证书中，解决了冒充的风险。

在这里插入图片描述

客户端先向服务器索要公钥，然后用公钥加密信息，服务器收到密文后，再用自己的私钥解密。

如何保证公钥不被篡改以及保证信任度？

这里就需要借助第三方权威机构 CA（数字证书认证机构），将服务器公钥放在数字证书（数字证书由认证机构颁发）中，只要证书是可信的，那么公钥就是可信的。

通过数字证书的方式保证服务器公钥的身份，解决冒充的风险。

HTTPS 是如何建立连接的？期间如何交互？

SSL/TLS 协议的基本流程如下。

客户端向服务器索要并验证服务器的公钥
双方协商生成「会话秘钥」
双方采用「会话秘钥」进行加密通信

前两步就是 SSL/TLS 的建立过程，也就是握手阶段。

SSL/TLS 的「握手阶段」涉及四次通信，如下图所示。

在这里插入图片描述

ClientHello

首先，由客户端向服务器发起加密通信请求，也就是 ClientHello 请求。

在这一步，客户端主要向服务器发送以下信息。

客户端支持的 SSL/TLS 协议版本，如 TLS/1.2 版本
客户端生成的随机数（Client Random），后面用于生成「会话秘钥」
客户端支持的密码套件列表，如 RSA 加密算法

SeverHello

服务器收到客户端请求后，向客户端发出响应，也就是 SeverHello。

服务器响应的内容如下。

确认 SSL/ TLS 协议版本，如果浏览器不支持，则关闭加密通信
服务器生成的随机数（Server Random），后面用于生成「会话秘钥」
确认密码套件列表，如 RSA 加密算法
服务器的数字证书

客户端响应

客户端收到服务器的响应之后，首先通过浏览器或者操作系统中的 CA 公钥，确认服务器的数字证书的真实性。

如果证书没有问题，客户端会从数字证书中取出服务器的公钥，然后使用它加密报文，并向服务器发送如下信息。

一个随机数（pre-master key），该随机数会被服务器公钥加密
加密通信算法改变的通知，表示随后的信息都将用「会话秘钥」加密通信
客户端握手结束的通知，表示客户端的握手阶段已经结束，同时把之前所有发送的数据内容做个摘要，供服务器进行校验

上面第一项的随机数是整个握手阶段的第三个随机数，这样服务器和客户端就同时有三个随机数，接着就用双方协商好的加密算法，各自生成本次通信的「会话秘钥」。

服务器的最后响应

服务器在收到客户端的第三个随机数（pre-master key）之后，通过协商的加密算法，计算出本次通信的「会话秘钥」，然后向客户端发送最后的信息。

加密通信算法改变的通知，表示随后的信息都将用「会话秘钥」加密通信
服务器握手结束的通知，表示服务器的握手阶段已经结束，同时把之前所有发送的数据内容做个摘要，供客户端进行校验

至此，整个 SSL/TLS 的握手阶段全部结束。接下来，客户端与服务器便进入加密通信，实际上使用的是普通的 HTTP 协议，只不过是用「会话秘钥」加密内容。

HTTP/1.1、HTTP/2、HTTP/3 的演变

HTTP/1.1 相比 HTTP/1.0 提高了什么性能？

HTTP/1.1 相比 HTTP/1.0 在性能上的改进如下。

使用 TCP 长连接的方式改善了 HTTP/1.0 短连接所造成的性能开销
支持管道（pipeline）网络传输，只要第一个请求发出去了，不必等其回来，就可以发第二个请求出去，减少整体的响应时间

但 HTTP/1.1 还是有性能瓶颈缺陷的。

请求/响应头部（Header）未经压缩就发送，首部信息越多延迟越大，只能压缩 Body 的部分
发送冗长的首部，每次互相发送相同的首部，造成较多的浪费
服务器是按请求的顺序响应的，如果服务器响应慢，会导致客户端一直请求不到数据，也就是队头阻塞
没有请求优先级控制
请求只能从客户端开始，服务器只能被动响应

针对 HTTP/1.1 的性能瓶颈，HTTP/2 做了什么优化？

HTTP/2 协议是基于 HTTPS 的，所以 HTTP/2 的安全性也是有保障的。

HTTP/2 相比 HTTP/1.1 在性能上的改进如下。

头部压缩

HTTP/2 会压缩头（Header），如果同时发出多个请求，且它们的头是一样或者是相似的，那么协议会帮你消除重复的部分。

这就是所谓的 HPACK 算法：客户端和服务器同时维护一张头信息表，所有字段都会存入这张表，生成一个索引号，这样以后就不用再发送同样的字段了，只需发送索引号，这样就提高速度了。

二进制格式

HTTP/2 不再像 HTTP/1.1 一样传输纯文本形式的报文，而是全面采用了二进制格式，头信息和数据体都是二进制，并且统称为帧（frame）：头信息帧和数据帧。

在这里插入图片描述

虽然这样对人不友好，但是对计算机却非常友好，因为计算机只懂二进制。计算机在收到报文后，无需再将明文的报文转成二进制，而是直接解析二进制报文，这样就提高了数据传输的效率。

数据流

HTTP/2 的数据包不是按顺序发送的，同一个连接里连续的数据包，可能属于不同的响应。因此，必须要对数据包做标记，指出它属于哪个响应。

每个请求或响应的所有数据包，称为一个数据流（Stream）。每个数据流都标记着一个独一无二的编号，其中规定客户端发出的数据流的编号为奇数，服务器发出的数据流的编号为偶数。

客户端还可以指定数据流的优先级。优先级高的请求，服务器就会优先响应该请求。

在这里插入图片描述

多路复用

HTTP/2 可以在一个连接中并发多个请求或响应，而不用按照顺序一一对应。

移除了 HTTP/1.1 中的串行请求，不需要再排队等待，也就不会出现「队头阻塞」问题，降低了延迟，大幅提高了连接的利用率。

举例来说，在一个 TCP 连接里，服务器收到了客户端 A 和 B 的两个请求，如果发现 A 处理过程非常耗时，于是就响应 A 请求已经处理好的部分，接着响应 B 请求，完成后再响应 A 请求剩下的部分。

在这里插入图片描述

服务器推送

HTTP/2 还在一定程度上改善了传统的「请求 - 应答」工作模式，服务器不再是被动地响应，也可以主动向客户端发送消息。

举例来说，在浏览器刚请求 HTML 的时候，就提前把可能会用到的 JS、CSS 等静态资源文件主动发给客户端，减少延时等待，即服务器推送（Server Push，也叫 Cache Push）。

HTTP/2 有哪些缺陷？HTTP/3 又做了什么优化？

HTTP/2 主要的问题在于，多个 HTTP 请求在复用一个 TCP 连接，但是下层的 TCP 协议是不知道有多少个 HTTP 请求的。所以一旦发生了丢包现象，就会触发 TCP 的重传机制，这样在一个 TCP 连接中的所有的 HTTP 请求都必须等待这个丢了的包被重传回来。

HTTP/1.1 中的管道（ pipeline）传输中如果有一个请求被阻塞，那么队列后的所有请求也会统统被阻塞住
HTTP/2 多个请求复用一个TCP连接，一旦发生丢包，就会阻塞住所有的 HTTP 请求

这些都是基于 TCP 传输层的问题，所以 HTTP/3 直接把 HTTP 下层的 TCP 协议改成了 UDP！

在这里插入图片描述

因为 UDP 发送是不管顺序的，也不管丢包的，所以不会出现 HTTP/1.1 的队头阻塞和 HTTP/2 的因为一个丢包而导致全部重传的问题。

大家都知道 UDP 是不可靠传输，但是基于 UDP 的 QUIC 协议却可以实现类似 TCP 的可靠性传输。

QUIC 有自己的一套机制可以保证传输的可靠性。当某个流发生丢包时，只会阻塞这个流，而其他流不会受到影响
TLS 升级成了最新的 1.3 版本，头部压缩算法也升级成了 QPack
HTTPS 要建立一个连接，要花费 6 次交互，先是建立 TCP 三次握手，然后是 TLS 三次握手。而 QUIC 直接把以往的 TCP 和 TLS 的 6 次交互合并成了 3 次，减少了交互次数

在这里插入图片描述