HTTP 协议报文
HTTP 协议在规范文档里详细定义了报文的格式,规定了组成部分,解析规则,还有处理策略,所以可以在 TCP/IP 层之上实现更灵活丰富的功能,例如连接控制,缓存管理、数据编码、内容协商等等
报文结构
- 起始行(start line):描述请求或响应的基本信息
- 头部字段集合(header):使用 key-value 形式更详细地说明报文
- 消息正文(entity):实际传输的数据,它不一定是纯文本,可以是图片、视频等二进制数据
这其中前两部分起始行和头部字段经常又合称为“请求头”或“响应头”,消息正文又称为“实体”,但与“header”对应,很多时候就直接称为“body”
HTTP 协议规定报文必须有 header,但可以没有 body,而且在 header 之后必须要有一个“空行”,也就是“CRLF”,十六进制的“0D0A”
HTTP 报文结构就像是“大头儿子”,由“起始行 + 头部 + 空行 + 实体”组成,简单地说就是“header+body”
请求头由“请求行 + 头部字段”构成,响应头由“状态行 + 头部字段”构成
请求行有三部分:请求方法,请求目标和版本号
状态行也有三部分:版本号,状态码和原因字符串
HTTP/1.1 里唯一要求必须提供的头字段是 Host,它必须出现在请求头里,标记虚拟主机名
标准请求方法
URI 的完整格式
第一个多出的部分是协议名之后、主机名之前的身份信息“user:passwd@”,表示登录主机时的用户名和密码,但现在已经不推荐使用这种形式了(RFC7230),因为它把敏感信息以明文形式暴露出来,存在严重的安全隐患
第二个多出的部分是查询参数后的片段标识符“#fragment”,它是 URI 所定位的资源内部的一个“锚点”或者说是“标签”,浏览器可以在获取资源后直接跳转到它指示的位置
但片段标识符仅能由浏览器这样的客户端使用,服务器是看不到的。也就是说,浏览器永远不会把带“#fragment”的 URI 发送给服务器,服务器也永远不会用这种方式去处理资源的片段
URI 转义的规则有点“简单粗暴”,直接把非 ASCII 码或特殊字符转换成十六进制字节值,然后前面再加上一个“%”
在 URI 里对“@&/”等特殊字符和汉字必须要做编码,否则服务器收到 HTTP 报文后会无法正确处理
http://www.chrono.com:8080/11-1? 夸父逐日
http://www.chrono.com:8080/11-1?夸父逐日
响应状态码
1××:提示信息,表示目前是协议处理的中间状态,还需要后续的操作
2××:成功,报文已经收到并被正确处理
3××:重定向,资源位置发生变动,需要客户端重新发送请求
4××:客户端错误,请求报文有误,服务器无法处理
5××:服务器错误,服务器在处理请求时内部发生了错误
常用响应状态码
- 101 Switching Protocols
- 客户端使用 Upgrade 头字段,要求在 HTTP 协议的基础上改成其他的协议继续通信,比如 WebSocket。而如果服务器也同意变更协议,就会发送状态码 101,但这之后的数据传输就不会再使用 HTTP 了
- 200 OK
- 表示一切正常,服务器如客户端所期望的那样返回了处理结果,如果是非 HEAD 请求,通常在响应头后都会有 body 数据
- 204 No Content
- 它的含义与“200 OK”基本相同,但响应头后没有 body 数据
- 206 Partial Conten
- HTTP 分块下载或断点续传的基础,在客户端发送“范围请求”、要求获取资源的部分数据时出现,它与 200 一样,也是服务器成功处理了请求,但 body 里的数据不是资源的全部,而是其中的一部分
- 301 Moved Permanently
- “永久重定向”,含义是此次请求的资源已经不存在了,需要改用改用新的 URI 再次访问
- 302 Found
- 俗称“临时重定向”,意思是请求的资源还在,但需要暂时用另一个 URI 来访问
- 304 Not Modified
- 它用于 If-Modified-Since 等条件请求,表示资源未修改,用于缓存控制。它不具有通常的跳转含义,但可以理解成“重定向已到缓存的文件”(即“缓存重定向”)
- 400 Bad Request
- 表示请求报文有错误,但具体是数据格式错误、缺少请求头还是 URI 超长它没有明确说,只是一个笼统的错误
- 403 Forbidden
- 表示服务器禁止访问资源。原因可能多种多样,例如信息敏感、法律禁止等,如果服务器友好一点,可以在 body 里详细说明拒绝请求的原因
- 404 Not Found
- 资源在本服务器上未找到,所以无法提供给客户端
- 405 Method Not Allowed
- 不允许使用某些方法操作资源,例如不允许 POST 只能 GET
- 406 Not Acceptable
- 资源无法满足客户端请求的条件,例如请求中文但只有英文
- 408 Request Timeout
- 请求超时,服务器等待了过长的时间
- 409 Conflict
- 多个请求发生了冲突,可以理解为多线程并发时的竞态
- 413 Request Entity Too Large
- 请求报文里的 body 太大
- 414 Request-URI Too Long
- 请求行里的 URI 太大
- 429 Too Many Requests
- 客户端发送了太多的请求,通常是由于服务器的限连策略
- 431 Request Header Fields Too Large
- 请求头某个字段或总体太大
- 500 Internal Server Error
- 通用的错误码,服务器究竟发生了什么错误我们是不知道的
- 501 Not Implemented
- 客户端请求的功能还不支持,这个错误码比 500 要“温和”一些,和“即将开业,敬请期待”的意思差不多,不过具体什么时候“开业”就不好说了
- 502 Bad Gateway
- 服务器作为网关或者代理时返回的错误码,表示服务器自身工作正常,访问后端服务器时发生了错误,但具体的错误原因也是不知道的
- 503 Service Unavailable
- 服务器当前很忙,暂时无法响应服务,我们上网时有时候遇到的“网络服务正忙,请稍后重试”的提示信息就是状态码 503