HTTP
协议(超文本传输协议HyperText Transfer Protocol),它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则。
HTTP URL
URL(Uniform Resource Locator)即“统一资源定位符”。
除了 URL,还有一个 URI(Uniform Resource Identifier,统一资源标识符)的概念。URL 是 URI 的真子集;也就是说一个 URL 一定是 URI,但一个 URI 不一定是 URL。在浏览器访问网页的时候,多数常见的情况下我们看到的 URI 都是 URL。
HTTP URL
包含了用于查找某个资源的详细信息, 格式如下:
http://host[":"port][abs_path]
HTTP 协议的格式
如前所述,作为一个协议,HTTP 对于消息的格式有严格的要求。
我们将整个协议划分为两个大类:请求,响应。
HTTP请求
一般地,HTTP 协议格式主要分成四个部分:起始行、消息头、空行、消息体;
其中,起始行又包含三个信息:方法、URI、HTTP 协议版本。
“方法”指的是本次请求要执行的操作,有时也称“HTTP 谓词”或“HTTP 动词”。常见的方法是GET
和POST
这两个:GET
表示客户端要从服务器获取资源;而POST
则表示客户端要想服务器传输一些表单数据。
协议格式的第二部分消息头包含一些对消息的描述信息,格式是<field>:<value>
。具体地,各种消息头又被分为四大类:通用头、请求头、响应头(用于响应消息)和实体头。
第三部分空行,起到的作用是提示消息头结束、消息体开始。
第四部分消息体就是正主了,也就是一条 HTTP 消息要传输的主体。然而稍稍有些尴尬的是,对于有的方法而言并不需要传输其他信息,只需要有起始行和消息头就足够了(比如GET
方法),因此这个部分不仅不一定是最长的,甚至可能是空的。
HTTP 响应
与请求消息比较类似,HTTP 响应消息也分为四个部分:状态行、消息头、空行、消息体
其中后三个部分与 HTTP 请求消息基本一致
状态行也由三个部分组成:HTTP 协议版本、状态码、状态文本。其中 HTTP 协议版本无需赘言。
状态码其实我们很熟悉。最典型的一个就是每当我们访问的某个 URL 不存在时,就会得到一个404
的状态码。因此状态码实际上是用来标识请求成功与否的数字。除了404
,典型的状态码还有200
(请求成功)、301
(资源被永久移动)、302
(资源被临时移动)等。
当客户端使用GET
方法向服务器请求了一个网页,此时如果请求成功,服务器的 HTTP 响应消息的消息体就会包含该网页的 HTML 文本。