HTTP 协议学习笔记 - 2

最新推荐文章于 2024-10-18 15:04:21 发布

来打小怪啊

最新推荐文章于 2024-10-18 15:04:21 发布

阅读量547

点赞数

分类专栏：网络基础文章标签：网络

本文链接：https://blog.csdn.net/qq_36291747/article/details/108507046

版权

网络基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文为学习极客时间的《透视HTTP协议》的学习笔记！本文图片来源于专题文章中。

一、键入网址再按下回车，后面发生了什么

1. 使用 IP 地址访问 Web 服务器

使用 IP 地址访问服务器的简单流程
过程简述：

浏览器从地址栏获取到输入 IP 地址和端口号；
基于 TCP 的三次握手，浏览器与 Web 服务器建立连接；
浏览器向服务器发送请求报文；
服务器收到请求后，解析报文，处理请求，返回响应报文；
浏览器收到响应后，解析报文，渲染输出页面。

2. 使用域名访问 Web 服务器

使用域名访问 Web 服务器经过的 DNS
过程简述：

浏览器从地址栏获取到输入的域名和端口号；
浏览器查看浏览器缓存中是否存在该域名，若有，则返回对应的 IP；若没有，则查看操作系统缓存中是否存在该域名，若有，则返回对应的 IP；若没有，才查看本机的域名解析文件 hosts中是否存在该域名，若有，则返回对应的 IP；若没有，则进入 DNS 解析系统（非权威域名服务器 -> 根域名服务器 -> 顶级域名服务器 -> 权威域名服务器），查找域名对应的 IP 地址；
拿着解析得到的 IP 地址，建立 TCP 连接；
浏览器向服务器发送请求报文；
服务器接收到请求，解析报文，处理请求，返回响应报文；
浏览器接收到响应，解析报文，渲染出页面。

二、HTTP 报文结构

HTTP 报文结构如下：

HTTP 报文可以没有 body，但必须要有 header，而且 header 后也必须要有空行.

请求行：

响应行 / 状态行：

头部字段：

请求：
头部字段-请求

响应：
头部字段-响应

字段名不区分大小写，例如“Host”也可以写成“host”，但首字母大写的可读性更好；
字段名里不允许出现空格，可以使用连字符“-”，但不能使用下划线“_”。例如，“test-name”是合法的字段名，而“test name”“test_name”是不正确的字段名；
字段名后面必须紧接着“:”，不能有空格，而“:”后的字段值前可以有多个空格；
字段的顺序是没有意义的，可以任意排列不影响语义；
字段原则上不能重复，除非这个字段本身的语义允许，例如 Set-Cookie;
HTTP/1.1 里唯一要求必须提供的头字段是 Host，它必须出现在请求头里，标记虚拟主机名。

三、请求方法

HTTP请求方法
请求方法是客户端发出的、要求服务器执行的、对资源的一种操作；请求方法是对服务器的“指示”，真正应如何处理由服务器来决定；

1. 安全

在 HTTP 协议里，安全是指：请求方法不会“破坏”服务器上的资源，不会对服务器上的资源造成实质上的修改。

例如：GET 、HEAD 都是只读的，不会对服务器上的资源造成修改，所以这两个方法是安全的。而 POST 、PUT、DELETE 等，则是非安全的。

2. 幂等

f(f(x)) = f(x)

在 HTTP 协议里，幂等是指：多次执行相同的操作，结果也都是相同的。

例如：GET、HEAD、PUT 、DELETE 等就是幂等的。而 POST 则是非幂等的。

按照 RFC 里的语义，POST 是“新增或提交数据”，多次提交数据会创建多个资源，所以不是幂等的；而 PUT 是“替换或更新数据”，多次更新一个资源，资源还是会第一次更新的状态，所以是幂等的。

四、URI 的格式

1. URI 的基本组成

URI 的基本组成

scheme：协议名、方案名。必需的，指明了要使用什么协议来处理请求的资源；
:// ：scheme 和 authority 之间的分隔符；
host:port ：authority，主机名和端口号；
path：资源路径，采用了文件系统的目录或路径的表示形式，层级之间使用的是 / 。路径一定是以 / 开始的，包含 / ；
query：查询参数，针对请求的资源的额外的查询参数。以？开始，但是不包含？，是 key=value 的形式，多个查询参数之间使用 & 连接。

query 和 header 里的头部字段，存在着一些相似之处，比如：都是 key-value 这样的形式；都可以自由定义。它们之间的区别是：query 针对的是请求的资源，而头部字段针对的是本次请求。

特殊的例子：

file:///D:/keep-learning/courses/a.png

// 1. scheme : file
// 2. :// : 特有的分隔符
// 3. host:port : 主机省略了，默认是 localhost，端口也省略了。http、https 这些网络协议是不能省略 主机的
// 4. path : /D:/keep-learning/courses/a.png：资源路径

2. URI 的完整格式

URI 的完整格式
相较于 URI 的基本格式，完整格式多了 2 个部分：

user:passwd@：用户登录服务器的用户名和密码。明文显示用户信息，存在严重的安全隐患，不建议使用；
#fragement：用于资源内部的定位，只由客户端浏览器使用。浏览器获取到资源后，可以根据 fragement 指定的锚点，跳转到文档内部的特定位置。

3. URI 的编码

在 URI 里对“@&/”等特殊字符和汉字必须要做编码，否则服务器收到 HTTP 报文后会无法正确处理。

针对 URI 中出现的 ascci 码以外的字符或者一些特定的符号，把字符（unicode）编码成 utf-8（utf-8 是用 1-4 个字节表示的），再把每个字节转换成 16 进制并在前面用百分号（%）连接，最后并把每个字节转换的结果连接起来，就得到了 URI 编码后的结果。

五、响应状态码

状态码在响应报文里表示服务器对客户端的请求的处理结果。

状态码分为 5 类，从 100 到 599，下面是一些常见的状态码：

1. 2xx

200：OK，表示一切正常；
204：No Content，含义与“200 OK”基本相同，但响应头后没有 body 数据；
206：Partial Content，成功处理了请求，但 body 里的数据不是资源的全部，而是其中的一部分。状态码 206 通常还会伴随着头字段“Content-Range”，表示响应报文里 body 数据的具体范围，供客户端确认。