应用层
应用层常用的协议
- 超文本传输:HTTP、HTTPS
- 文件传输:FTP
- 电子邮件:SMTP、POP3、IMAP
- 动态主机配置:DHCP
- 域名系统:DNS
域名(Domain Name)
由于IP地址不方便记忆,并且不能表达组织的名称和性质,人们设计出了域名(比如baidu.com)
根据级别不同,域名可以分为:
- 顶级域名
- 二级域名
- 三级域名
- …
DNS(域名系统)
DNS的全称为:Domain Name System,域名系统
利用DNS协议,可以将域名解析为对应的IP地址(比如将baidu.com解析成192.168.0.1)
DNS可以基于UDP,也可以基于TCP。服务端占用53端口号
- 客户端首先会访问最近的一台DNS服务器(也就是客户端自己配置的DNS服务器)
- 所有的DNS服务器都记录了DNS根域名服务器的IP地址
- 上级DNS服务器记录了下级DNS服务器的IP地址
IP地址的分配
IP地址按照分配方式,可以分为:静态IP地址、动态IP地址
静态IP地址:
手动设置
适用场景:不怎么挪动的台式机、服务器等
动态IP地址:
从DHCP服务器自动获取IP地址
适用场景:移动设备、无线设备等
DHCP
DHCP(Dynamic Host Configuration Protocol),动态主机配置协议
DHCP协议基于UDP协议,客户端是68端口,服务端是67端口
DHCP服务器会从IP地址池中,挑选一个IP地址 “出租” 给客户端一段时间,时间到期就回收它们。
平时家里上网的路由器就可以充当DHCP服务器
HTTP
HTTP(Hyper Text Transfer Protocol),超文本传输协议
设计HTTP的最初目的:提供一种发送和接收HTML页面的方法,由URI来标识具体的资源
之后,HTTP传输的数据格式就不止HTML了,应用非常广泛。
URI包括了URL
URL是可以唯一找到一个资源文件,其也是URI
短的URI不可以确定唯一一个资源文件
HTML(Hyper Text Markup Language),超文本标记语言
可以用来编写网页
超文本,本来是文本,但是可以实现连接、图片等等其他功能,因此,被称为超文本
报文格式
请求报文和响应报文,可以使用ABNF语言进行描述
ABNF是最严谨的HTTP报文格式描述形式
报文格式-整体
HTTP-message = start-line
*(header-field CRLF)
CRLF
[message-body]
start-line = request-line/status-line(请求行/响应行)
CRLF是换行的意思
请求方法
9种
GET、HEAD、POST、PUT、DELETE、CONNECT、OPTIONS、TRACE、PATCH
- GET:常用于读取操作,请求参数直接拼接在URL后面(浏览器对URL是有长度限制的)
- POST:常用于添加、修改、删除的操作,请求参数可以放到请求体中(没有大小限制)
增删改查齐了
- HEAD:请求得到与GET请求相同的响应,但没有响应体
比如,你想下载一个视频文件,但想先看看这个视频有多大再决定下载与否,用GET就直接下载了,而使用HEAD仅得到响应头的信息,不会得到响应体,也就不会下载视频文件
- OPTIONS:用于获取 目的资源 所支持的通信选项,比如服务器支持的请求方法
- PUT:用于对已存在的资源进行整体覆盖
- PATCH:用于对资源进行部分修改(资源不存在,会创建新的资源)
- DELETE:用于删除指定的资源
- TRACE:请求服务器回显其收到的请求信息,主要用于HTTP请求的测试或诊断
- CONNECT:可以开启一个客户端与所请求资源之间的双向沟通的通道,它可以用来创建隧道(tunnel)
头部字段(Header Field)
头部字段可以分为4种类型:
-
请求头字段(Request Header Field)
只出现在请求头里面的字段 -
响应头字段(Response Header Field)
只出现在响应头里面的字段 -
实体头字段(Entity Header Field)
有关实体主体的更多信息,比如主题长度(Content-Length)或其MIME类型 -
通用头字段(General Header Field)
请求头和响应头都有的字段
请求头字段
客户端发送给服务器端的
响应头字段
服务器到客户端
状态码(Status Code)
状态码指示HTTP请求是否已成功完成
状态码可以分为5类
- 信息响应:100~199
- 成功响应:200~299
- 重定向:300~399
- 客户端错误:400~499
- 服务端错误:500~599
常见状态码
- 100 Continue
请求的初始部分已经被服务器收到,并且没有被服务器拒绝。客户端应该继续发送剩余的请求,如果请求已经完成,则忽略这个响应。 - 200 OK: 请求成功
- 302 Found:请求的资源被暂时的移动到了由Location头部指定的URL上
- 304 Not Modified: 说明无需再次传输请求的内容,也就是说可以使用缓存的内容
- 400 Bad Request: 由于语法无效,服务器无法理解该请求
- 403 Forbidden: 服务端有能力处理该请求,但是拒绝授权访问
- 404 Not Found: 服务器无法找到所请求的资源
- 405 Method Not Allowed: 服务器禁止使用当前HTTP方法的请求
- 408 Request Timeout: 服务器想要将没有在使用的连接关闭
- 500 Internal Server Error: 所请求的服务器遇到意外的情况并阻止其执行请求
- 501 Not Implemented: 请求的方法不被服务器支持,因此无法被处理
Cookie和Session
Cookie:在客户端存储一些数据,存储在本地磁盘(硬盘);服务端可以返回Cookie交给客户端去存储
Session:在服务器存储一些数据,存储在内存中
简述客户端用户登录成功后,Session和Cookie都有哪些操作?
- 在客户端用户登录时,会将用户名和密码传输给服务端;
- 服务端拿到用户的用户名和密码,生成一个Session,然后生成一个id号(比如id = 666),然后将用户名和密码进行存储;
- 服务端对客户端的登录请求进行响应,发送响应成功。并在响应头里面添加
Set-Cookie: JSEESIONID = 666
- 客户端将
JSEESIONID = 666
存储在自己的Cookie里面 - 等客户端再次请求数据的时候,就会将
Cookie: JSEESIONID = 666
设置在请求头里面 - 服务端接收到客户端的请求,会检查请求头信息,如果发现里面有Cookie信息,并且Session里面有对应的Id,则表明之前登录成功过。然后将用户数据给客户端
代理服务器(Proxy Server)
本身不生成内容
处于中间位置,转发上下游的请求和响应
面向下游的客户端:它是服务器
面向上游的服务器:它是客户端
正向代理、反向代理
正向代理:代理的对象是客户端
反向代理:代理的对象时服务器
那么,代理有什么用呢?
正向代理的作用:
- 隐藏客户身份
由于通过了代理服务器,目标服务器拿不到客户端的ip地址等信息 - 绕过防火墙(突破访问限制)
- Internet访问控制
- 数据过滤
- …
Charles等抓包工具,就是在客户端启动了正向代理服务;所有请求都通过Charles分发,因此,可以抓到数据。
Wireshark的原理是:通过底层驱动,拦截网卡上流过的数据
反向代理的作用:
- 隐藏服务器身份
- 安全防护
- 负载均衡
全国那么多用户在用百度搜索,如果只有一台服务器,那么这台服务器就被弄挂掉了。现在,先将用户的请求给代理服务器,代理服务器可以负载均衡,然后将数据交给后面空闲的服务器去处理。
CDN(内容分发网络)
其作用是:
利用最靠近用户的服务器
更快更可靠的将音乐、图片、视频等资源文件(一般是静态资源)传递给用户