http的前世今生
1. 史前时期
- 20世纪60年代,美国国防部高等研究计划署ARPA建立ARPA网,四个分布在各地的节点
- 20世纪70年代,TCP/IP协议产生并流行
2. 创世纪
1989年,Tim Berners-Lee在论文中提出3个关键技术——URI、HTML、HTTP,http诞生
3. 从产生到发展
a. 20世纪90年代初,HTTP/0.9
,结构简单,纯文本,只允许[GET]操作,响应后关闭连接
b. 1996年,HTTP/1.0
形式上和现在的HTTP差距不大,但只是参考文档,当时意义不大。RFC 1945
- 增加了HEAD、POST等新方法
- 增加响应状态码,标记可能的错误原因
- 引入了协议版本号概念
- 引入了http Header的概念
- 传输的数据不再仅限于文本
c. 1995年的"浏览器大战”结束后,99年HTTP/1.1
发布RFC 2616
,小幅修改,但是“正式的标准”。目前主力
- 增加了PUT、DELETE等新方法
- 增加了缓存管理和控制
- 明确了连接管理、允许持久连接
- 允许响应数据分块chunked,利于传输大文件
- 强制要求Host头,让互联网主机托管成为可能
d. 2015年,基于Google的SPDY协议的HTTP/2.0
诞生,目前普及率较低RFC 7540
- 二进制协议,不再是纯文本【安全】
- 可发起多个请求,废弃了1.1的管道【宽带】
- 使用专用算法压缩头部,减少数据传输量【宽带】
- 允许服务器主动向客户端推送数据【移动】
- 增加了安全性,“事实上”要求加密通信【安全】
e. 未来的发展方向,基于Google的QUIC协议的HTTP/3.0
HTTP是什么
HTTP(HyperText Transfer Protocol
):超文本传输协议
1. 协议:
a. 两个及以上参与者【协】
b. 对参与者的一种行为约定和规范【议】
2. 传输协议:
a. HTTP协议是一个“双向协议”——请求方&&响应方/应答方
b. 数据传输允许中间“中转”或“接力”
3. 超文本:
- 文本:简单的字符文字 -->图片、音频、视频、甚至是压缩包
- 超文本:文字、图片、音频等的混合体,含有“超链接”,能够实现跳转,复杂的非线性、网状的结构关系
HTTP
:一个在计算机世界里,专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范
- HTTP不存在“单独的实体”,与应用程序、操作系统、Web服务器密切相关,在他们之前的通信过程中动态存在
- Internet上的协议:http/https/ftp/smtp/pop3等
- HTTP != HTML
- HTTP通常跑在TCP/IP协议栈上,依靠IP协议实现寻址和路由、TCP协议实现可靠数据传输、DSN协议实现域名查找、SSL/TLS协议实现安全通信。此外,WebSocket、HTTPDNS等协议一栏与HTTP。
与HTTP相关的各种概念
1. 网络世界
- 局域网 / 广域网 / 因特网 [FTP/BT/IMAP-POP3/MagNet] / 万维网[www]
- 万维网——基于HTTP协议,传输HTML等超文本资源
- 互联网:90%被万维网/HTTP协议覆盖;
- 互联网还包括常用的电子邮件、BT 和 Magnet 点对点下载、FTP 文件下载、SSH 安全登录、各种即时通信服务等等,它们需要用各自的专有协议来访问。
2. 浏览器
Web Browser
:检索、查看互联网上网页资源的应用程序- 本质上是HTTP协议中的
请求方
,获取资源 - 在HTTP协议中,为
User Agent
,作为访问者的代理发起HTTP请求。客户端
3. Web服务器
web Server
:HTTP协议中响应请求的主体,把控着绝大多数网络资源- 软件 && 硬件
Apache
[老牌,功能完善、相关资料多、学习门槛低] &&Nginx
[后起之秀,高性能、高稳定、易扩展]
4. CDN
Conetnt Delivery network
:内容分发网络- 应用HTTP协议的缓存和代理技术,代替源站响应客户端请求
- 缓存源站数据,在“半路”获取响应,大幅度缩短响应时间
5. 爬虫
Crawler
:可自动访问Web资源的应用程序- 爬虫的数据大都由各大搜索引擎放出来的,抓取网页存入庞大的数据库,再建立关键字索引,在搜索引擎中快速搜索互联网角落里的页面
- 过度消耗网络资源,占用服务器和带宽,影响网站对真实数据的分析,甚至导致敏感信息的泄露
- “爬虫”与“反爬虫”用到的基本技术:HTTP、HTML
6. HTML / WebService/WAF
- HTML:HTTP协议传输的主要内容之一
- Web Service:基于Web的服务架构技术,运行于内网或外网
- WAF:网络应用防火墙,专门监测HTTP流量
与HTTP相关的技术
1. TCP/IP
- 一系列网络通信协议的统称:核心是TCP和IP协议,其余还有UDP、ICMP、ARP等,构成协议栈
- 协议栈:应用层<- 传输层TCP <- 网际层IP <- 链路层
IP:Internet Protocol
主要解决寻址和路由问题,以及如何在两点间传送数据包TCP:Transmission Control Protocol
位于IP协议之上,基于IP协议提供可靠地字节流
形式的通信- 可靠——保证数据不丢失;字节流——保证数据完整性
- HTTP over TCP/IP
2. DNS
Domain Name System
:用有意义的名字作为IP地址的等价替代- DNS中
Domain Name
又称为Host
,更好地标记不同国家或组织的主机,设计有层次的结构 域名解析
:HTTP使用TCP/IP协议通信,需要使用IP协议,所以需要把域名做一个转换,映射到他的真实地址- 为了方便访问互联网上的Web服务器,通常会使用DNS来定位或标记主机名
3. URI/URL
- 定位主机上众多的文本、图片、页面
Uniform Resource Identifier
:统一资源标识符,唯一标识互联网资源Uniform Resource Locator
:统一资源定位符 => 网址- URI的三个基本构成部分:
https://mp.csdn.net/mdeditor/95049262
a. 协议名protocol:访问资源应当使用的协议。'http'
b. 主机名host:互联网上主机的标记,可以是域名或IP地址。'mp.csdn.net'
c. 路径path:资源在主机上的位置,使用'/'分隔多级目录。'/mdeditor/95049262'
4. HTTPS
HTTP over SSL/TSL
:加密通信Secure Socket Layer
发展到3.0时被更名为Transport Layer Security
5. 代理
Proxy
:请求方和响应方的中转站,既可转发客户端的请求,又可转发响应方的应答
- 负载均衡:将访问请求均匀分散到多台机器,实现访问集群化
- 内容缓存:暂存上下行数据,减轻后端压力
- 安全防护:匿名IP,使用WAF等工具抵御网络攻击,保护被代理的机器
- 数据处理:提供压缩、加密等额外的功能
TCP/IP协议栈
- TCP/IP 网络分层模型
Link Layer
:在以太网、WIFI等底层网络发送原始数据包。使用MAC地址标记网络设备。“帧frame”Internet Layer
:在链路层基础上,用IP地址代替Mac地址连接众多局域网、广域网。“包package”Transport Layer
:保证两点之间可靠传输。TCP/UDP[无连接,分散小数据包,顺序发乱序收]。“段segment”Application Layer
:面向具体应用的协议。eg:telnet、SSH、FTP、SMTP等。HTTP的传输单位是"消息或报文message"
- OSI网络分层模型
Physicql Layer
:物理层,网络的物理形式——电缆、网卡、光纤、集线器等 【无对应】Data Link Layer
:数据链路层 【== TCP/IP中Link Layer】Network Layer
:网络层 【== TCP/IP中Internet Layer】Transport Layer
:传输层 【== TCP/IP中Transport Layer】Session Layer
:会话层,维护网络中的连接状态,保持会话和同步【属于 TCP/IP中Application Layer】Presentation Layer
:表示层,把数据转换为合适、可理解的语义或语法 【属于 TCP/IP中Application Layer】Application Layer
:应用层 【属于 TCP/IP中Application Layer】
域名解析过程:
浏览器缓存 -> 操作系统dns cache -> etc/hosts文件 -> 非权威域名服务器 -> 根域名服务器 -> 顶级域名服务器 -> 二级域名服务器 -> 权威域名服务器。