1、概述
HTTP超文本传输协议,最开始就是简单用来共享文件的。 比如,一个局域网有几十台机器,如何传输和共享文件,并且要方便查阅?为解决这个问题,提出了HTTP+ html(超文本标记语言)的解决方案。
方案设计了两大部分,客户端和服务器。 客户端的设计诞生了浏览器这种软件,用以解析标记性语言如<img><h1><p>等标签;服务器用以存放资源。
URL统一资源定位符:用以定位某个资源的位置,如http://10.80.18.10/index.html,通过这个地址,可以找到index.html 这个文件。
URI统一资源标示符号:资源的一个唯一标识,相当于身份证ID,用以唯一标识一个资源。
2、协议分层
HTTP作为一种协议,首先了解下协议的分层:
1. 应用层:HTTP属于应用层,其他还有FTP,DNS,SMTP,DHCP等,处于该层的协议,通常是用于某方面的应用。 比如http用于文本传输,FTP用于文件传输,SMTP用于邮件等。
2. 表示层:表示是指数据的表示,可以对数据进行压缩,加解密。用于该层的常用加密协议为SSL(Secure Socket Layer)。
3. 会话层:可以理解为两个应用程序之间的逻辑层面的连接,应用在这个会话中进行数据交换。作用就是为创建,管理和终止会话提供必要的方法。这些方法一般一个API形式出现,如NetBIOS,RPC,Socket API。会话层还负责管理确定传输模式(单向,半双工,全双工)
4. 传输层:这里指端对端,主机对主机的传输。有两个很重要的协议TCP和UDP。
TCP(传输控制协议):在传输之前,先建立连接。TCP做很多工作来保证数据的可靠传输,包括建立,管理,终止连接,确认,重传。 同时TCP还提供分段和重组,流量控制等。
UDP(用户数据报协议):UDP只是把数据打包成一个数据包,然后丢给网络层。所以在使用UDP时,不能一次性写入太多数据,否则会造成IP分段。
由于很多应用同时都在使用TCP和UDP,为了区分开各个应用,使用了端口号,由16位二进制组成。
5. 网络层:网络层关心如何将数据从一个设备发送到另一个设备,提供了三个最基本的功能:地址、分段和重组。IP协议就是为此而设计。
6. 数据链路层:该层也是关心数据从一个设备发送到另一个设备,这个设备可能在本地网或者远程网络。数据链路层主要是如何把数据发送的本地网络。平时说的LAN,Ethernet,Token Ring,Wifi都定义在此层。 有一个重要概念:MAC地址。
7. 物理层:数据最终都必须经由物理层才能发送出去。
· 硬件规范的定义,如电缆、连接器、无线接收器等的工作方式,网卡、集线器(Hub)等网络设备也工作在物理层。
· 编码和信号,物理层把计算机中的二进制0和1转换成可以在物理介质上传输的信号。
· 在把数据转换成信号后(如对于双绞线电缆则是电子脉冲信号),物理层负责信号的实际发送和接收。
各层常用的应用:
7 | 应用层 | 例如HTTP、SMTP、SNMP、FTP、Telnet、SIP、SSH、NFS、RTSP、XMPP、Whois、ENRP |
6 | 表示层 | |
5 | 会话层 | 例如ASAP、TLS、SSH、ISO 8327 / CCITT X.225、RPC、NetBIOS、ASP、Winsock、BSD sockets |
4 | 传输层 | |
3 | 网络层 | |
2 | 数据链路层 | |
1 | 物理层 |
3、HTTP架构
HTTP版本:
主要从1.0到1.1,是现在的主要使用,2.0的使用量还不够大。
交互流程:
HTTP是请求—响应模式,一个请求对应一个响应。 上一个请求和下一个请求是独立的、不相干的。
3.1 请求
在浏览器输入一个地址,回车,会发起一个http请求。通过调试模式,在network可以看到具体的请求信息。
请求的结构:
请求行以一个请求方式符号开头,以空格分开,后面跟着请求的URI和协议的版本,格式如下:Method Request-URI HTTP-Version CRLF (回车换行/r/n)
示例:GET /form.html HTTP/1.1 (CRLF)
1. 请求方式:Request Method:Get
HTTP的请求方式,大致有GET,POST,HEAD,DELETE,PUT,OPTIONS,TRACE,CONNECT。
GET:向特定的资源发出请求,用于获取数据。
HEAD:同GET,但是响应体不会返回,只获取头信息。
PUT:用于向服务器上传资源。
DELETE:用于删除服务器资源。
TRACE:回显服务器收到的请求,用于诊断和测试。
CONNECT:预留给能够将连接方式改为管道的代理服务器。
POST:常用的请求类型,向服务器提交请求,数据被包含在请求体中。
2. 头信息:头域由域名和域值组成,可以扩展为多行,在每行开始处使用最少一个空格或者制表符,以CRLF结束。 Cookie,Session都是对头信息的扩展。 示例:
3. 空行:空行是一个分隔,空行之前是报文头,空行之后是报文体。
3.2 响应
响应的结构
1. 状态码:格式HTTP-Version Status-Code Reason-Phrase CRLF
状态代码有三位数字组成,第一个数字定义了响应的类别,且有五种可能取值:
1xx:指示信息--表示请求已接收,继续处理
2xx:成功--表示请求已被成功接收、理解、接受
3xx:重定向--要完成请求必须进行更进一步的操作
4xx:客户端错误--请求有语法错误或请求无法实现
5xx:服务器端错误--服务器未能实现合法的请求
常见状态代码、状态描述、说明:
200 OK //客户端请求成功
400 Bad Request //客户端请求有语法错误,不能被服务器所理解
401 Unauthorized //请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用
403 Forbidden //服务器收到请求,但是拒绝提供服务
404 Not Found //请求资源不存在,eg:输入了错误的URL
500 Internal Server Error //服务器发生不可预期的错误
503 Server Unavailable //服务器当前不能处理客户端的请求,一段时间后可能恢复正常
示例:HTTP/1.1 200 OK (CRLF)
2. 消息头:格式同请求头,只是域名和域值有所不同。
4、扩展
HTTP的其他应用如:
HTTP指纹识别,工具HTTPPrint
Cookie
Session
安全SSL、TLS
长连接,短连接
状态码