问题:在浏览器输入url后发生了什么?
异常情况:
1、浏览器中输入url后,不点击回车,不会发送任何事
正常情况:
- 浏览器中输入url后,需要点击回车
- 浏览器查找当前url是否存在缓存,并对比缓存是否过期
- DNS解析对应的IP
- 根据IP与服务器建立TCP连接(三次握手)
- HTTP发起请求
- 服务器进行解析返回对应数据,浏览器响应服务器返回的数据
- 渲染页面,构建DOM树
- 关闭与服务器的链接,即关闭TCP链接(四次挥手)
二、各个步骤解析:
步骤1、URL的组成:
- protocol :协议头——http,加密的https,ftp等协议
- host:主机域名或者IP地址
- port:端口 (域名后不加端口,即使用默认端口:http默认使用80,https默认443)
- path:目录路径
- query:请求参数
- fragment:#后的hash,用来定位到某个位置
步骤2、客户端or浏览器如何判定缓存是否存在,缓存是否过期的?
补充解释:Etag
- Etag:是http规格说明定义的:被请求变量的实体值,也有一种说法是:ETag是一个可以与Web资源关联的记号(token)
- 如上:Etag标记值未改变,则服务器返回304,发送变化返回200
拓展提问2:Etag - Last-Modified和Etags如何帮助提高性能?
聪明的开发者会把Last-Modified和ETags请求的http报头一起使用,这样可利用客户端(例如浏览器)的缓存。因为服务器首先产生Last-Modified/Etag标记,服务器可在稍后使用它来判断页面是否已经被修改。本质上,客户端通过将该记号传回服务器要求服务器验证其(客户端)缓存。
过程如下:
- 客户端请求一个页面(A)。
- 服务器返回页面A,并在给A加上一个Last-Modified/ETag。
- 客户端展现该页面,并将页面连同Last-Modified/ETag一起缓存。
- 客户再次请求页面A,并将上次请求时服务器返回的Last-Modified/ETag一起传递给服务器。
- 服务器检查该Last-Modified或ETag,并判断出该页面自上次客户端请求之后还未被修改,直接返回响应304和一个空的响应体。
步骤3、DNS域名解析IP地址的过程
(DNS解析过程实际就是将域名还原成IP地址的过程)
- 先查找浏览器本地hosts是否有对应IP的映射关系,有就调用IP地址的映射,完成DNS解析
- 若1没有,再查找本地DNS服务器缓存,查找到直接返回
- 2仍没有,再查找本地DNS服务器,查找到直接返回
- 最后迭代查询,按照根域名->顶级域名,.com ->第二层域,baidu.com->子域,www.baidu.com的顺序找到IP地址
补充问题3_1、进行DNS域名解析的原因
- 域名不是真正请求资源所在的位置,域名只是IP地址的映射
- DNS主要作用就是将域名解析成对应的IP地址。
- 为了http请求时向服务器建立TCP连接,TCP/IP协议,有IP地址后才能正确的与对应的服务建立TCP链接
步骤4、建立TCP连接的三次握手的过程
基于DNS域名解析到IP,解析完成后就开始向对应IP服务器发起TCP的第一次连接
- client(客户端)发送连接,发送建立连接数据包(SYN)到服务器,然后进入SYN_SENT状态,等待服务器确认
- server(服务器)收到客户端的数据包SYN,必须进行数据包SYN确认,并且再发一个确认字符(ACK)将建立连接数据包和确认字符(SYN+ACK)发送给客户端告知客户端已经收到数据包且已经确认无误,服务器进入到SYN_RECV状态
- 客户端收到SYN+ACK后确认接收的消息后,再发送一个确认字符ACK到服务端确认收到服务器的确认信息后,建立连接,进入连接完成状态,完成TCP三次握手
步骤5、浏览器向服务器发起HTTP请求
完整的http请求必要的条件
- 请求行:说明请求类型get,post等,请求资源,请求协议
- 请求头header:请求服务器的附加部分,如资源类型等等
- 空行:请求头后必须有一行空行
- 请求主体:参数
POST / HTTP1.1 第一部分:请求行 Host:www.wrox.com 第二部分:请求头 User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022) Content-Type:application/x-www-form-urlencoded Content-Length:40 Connection: Keep-Alive 第三部分:空行 name=Professional%20Ajax&publisher=Wiley 第四部分:请求主体 请求头中的各种定义: Accept: 接收类型,表示浏览器支持的MIME类型 (对标服务端返回的Content-Type) Accept-Encoding:浏览器支持的压缩类型,如gzip等,超出类型不能接收 Content-Type:客户端发送出去实体内容的类型 Cache-Control: 指定请求和响应遵循的缓存机制,如no-cache If-Modified-Since:对应服务端的Last-Modified,用来匹配看文件是否变动,只能精确到1s之内,http1.0中 Expires:缓存控制,在这个时间内不会请求,直接使用缓存,http1.0,而且是服务端时间 Max-age:代表资源在本地缓存多少秒,有效时间内不会请求,而是使用缓存,http1.1中 If-None-Match:对应服务端的ETag,用来匹配文件内容是否改变(非常精确),http1.1中 Cookie: 有cookie并且同域访问时会自动带上 Connection: 当浏览器与服务器通信时对于长连接如何进行处理,如keep-alive Host:请求的服务器URL Origin:最初的请求是从哪里发起的(只会精确到端口),Origin比Referer更尊重隐私 Referer:该页面的来源URL(适用于所有类型的请求,会精确到详细页面地址,csrf拦截常用到这个字段) User-Agent:用户客户端的一些必要信息,如UA头部等
步骤6、服务器处理请求信息,客户端接收HTTP请求响应
服务端收到客户端的请求后,进行处理后会返回对应的response给客户端,客户端对response进行响应,服务器response响应包括:
- 状态行:由HTTP协议版本号, 状态码, 状态消息 三部分组成。
- 消息报头:说明客户端使用的一些附加信息
- 空行:
- 响应正文:服务端返回给客户端的文本信息
HTTP/1.1 200 OK 第一部分:状态行
Date: Fri, 22 May 2009 06:07:21 GMT 第二部分:消息报文
Content-Type: text/html; charset=UTF-8
第三部分:空行
<html> 第四部分:响应正文
<head></head>
<body>
<!--body goes here-->
</body>
</html>
响应头-消息报文主要由Cache-Control、 Connection、Date、Pragma等组成。
响应体-响应正文为服务器返回给浏览器的信息,主要由HTML,css,js,图片文件组成
拓展:HTTP的状态码分别表示:
状态代码有三位数字组成,第一个数字定义了响应的类别,共分五种类别:
1xx:指示信息--表示请求已接收,继续处理
2xx:成功--表示请求已被成功接收、理解、接受
3xx:重定向--要完成请求必须进行更进一步的操作
4xx:客户端错误--请求有语法错误或请求无法实现
5xx:服务器端错误--服务器未能实现合法的请求
常用的一些状态码: 200 OK //客户端请求成功 400 Bad Request //客户端请求有语法错误,不能被服务器所理解 401 Unauthorized //请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用 403 Forbidden //服务器收到请求,但是拒绝提供服务 404 Not Found //请求资源不存在,eg:输入了错误的URL 500 Internal Server Error //服务器发生不可预期的错误 503 Server Unavailable //服务器当前不能处理客户端的请求,一段时间后可能恢复正常
步骤7:页面渲染,构建DOM树
- 解析HTML,构建DOM树
- 解析CSS,生成CSS规则树
- 合并DOM树和CSS规则,生成render树
- 布局render树(Layout/reflow),负责各元素尺寸、位置的计算
- 绘制render树(paint),绘制页面像素信息
- 浏览器会将各层的信息发送给GPU,GPU会将各层合成(composite),显示在屏幕上
步骤8、关闭TCP连接(4次挥手)
- 浏览器发完数据后,发送FIN数据包请求断开连接
- 服务器进行确认返回确认字符ACK
- 服务器发完数据后,服务器再发送FIN断开连接给客户端,询问断开连接
- 客户端再次发送确认ACK,最后4次挥手完成,断开连接
参考文档:在浏览器输入url后发生了什么 - 简书
参考文档:HTTP协议Etag详解 - Ryan.zhu - 博客园
参考文档:关于HTTP协议,一篇就够了 - ranyonsue - 博客园
浏览器的同源策略 - Web 安全 | MDN 浏览器的同源策略