网络原理2（详细知识整理）

域名是一个字符串，如 www.baidu.com ， hr.nowcoder.com

域名系统为一个树形结构的系统，包含多个根节点。

其中：

1. 根节点即为根域名服务器，最早IPv4的根域名服务器全球只有13台，IPv6在此基础上扩充了数量。

2. 子节点主要由各级DNS服务器，或DNS缓存构成。 DNS域名服务器，即提供域名转换为IP地址的服务器。浏览器、主机系统、路由器中都保存有DNS缓存。

Windows系统的DNS缓存在 C:\Windows\System32\drivers\etc\hosts 文件中， Mac/Linux系统的DNS缓存在 /etc/hosts 文件中。

NAT

IP地址共32位，提供 2^32 ，大约43亿的唯一IP。但是IP地址有需要全球唯一。

IPv4协议中，IP地址数量不充足的问题 NAT技术当前解决IP地址不够用的主要手段，是路由器的一个重要功能；

NAT能够将私有IP对外通信时，转为全局IP。就是一种将私有IP和全局IP相互转化的技术方法。
全局IP要求唯一，但是私有IP不需要，在不同的局域网中出现的相同的私有IP是完全不影响的。
很多学校，家庭，公司内部采用每个终端设置私有IP，而在路由器或必要的服务器上设置全局IP。
一个局域网使用一个公网IP地址，一个局域网有很多主机。

NATP

如果局域网内，有多个主机都访问同一个外网服务器，那么对于服务器返回的数据中，目的IP都是相同的。那么NAT路由器如何判定将这个数据包转发给哪个局域网的主机

这时候NAPT来解决这个问题了。

这种关联关系也是由NAT路由器自动维护的。例如在TCP的情况下，建立连接时，就会生成这个表项；在断开连接后，就会删除这个表项。

NAT技术的缺陷由于NAT依赖这个转换表，所以有诸多限制：

无法从NAT外部向内部服务器建立连接；
转换表的生成和销毁都需要额外开销；
通信过程中一旦NAT设备异常，即使存在热备，所有的TCP连接也都会断开；

2.传输层的重点协议（负责端到端的数据传输）

UDP协议

UDP协议段格式

UDP特点：

无连接
不可靠
以数据报为单位进行传输
有接收缓存区，没有发送缓存区
全双工（可同时收发数据）

TCP协议

TCP，即Transmission Control Protocol，传输控制协议。要对数据的传输进行一定的控制。

TCP特点

有连接
可靠传输
面向字节流
有传输缓存区也有发送缓存区
全双工

TCP协议段格式：

端口号16位：0~65535
32位序列号和32位确认序号：确认应答使用
4位TCP报头长度：表示TCP首部的长度（不包含数据）。单位是4字节，所以TCP头部最大长度是 15 * 4 = 60字节
6位标志位:
URG：紧急指针是否有效
ACK：确认号是否有效
PSH：提示接收端应用程序立刻从TCP缓冲区把数据读走
RST：对方要求重新建立连接；我们把携带RST标识的称为复位报文段
SYN：请求建立连接；我们把携带SYN标识的称为同步报文段
FIN：通知对方，本端要关闭了，我们称携带FIN标识的为结束报文段
1
6位校验和：和UDP一样的作用，不仅包含TCP首部的数据，还包含了TCP数据部分的数据。
16位紧急指针：标识哪部分数据是紧急数据；

TCP原理

确认应答机制

TCP将每个字节的数据都进行了编号，即为序列号。

超时重传机制（安全机制）

主机A发送数据给B之后，可能因为网络拥堵等原因，数据无法到达主机B；

如果主机A在一个特定时间间隔内没有收到B发来的确认应答，就会进行重发；

但是也可能是ACK丢失了，因此主机B会收到很多重复数据。那么TCP协议需要能够识别出那些包是重复的包，并且把重复的丢弃掉。

TCP为了保证在任何环境下都能比较高性能的通信，因此会动态的计算这个最大超时时间。

连接管理机制（安全机制）

TCP建立连接：三次握手

断开连接：四次挥手

既然请求连接可以以合为3次连接，那么断开连接是不是也可以合为3次挥手呢？

不一定。

建立连接的时候，发送ACK是内核处理的，收到ACK之后，会立刻响应；

断开连接的时候，是用户处理的，中间可能会隔一段时间。

滑动窗口（效率机制）

对每一个发送的数据段，都要给一个ACK确认应答。收到ACK后再发送下一个数据段。这样做有一个比较大的缺点，就是性能较差。尤其是数据往返的时间较长的时候。

那么我们一次发送多条数据，就可以大大的提高性能（其实是将多个段的等待时间重叠在一起了）。

窗口大小指的是无需等待确认应答而可以继续发送数据的最大值。上图的窗口大小就是4000 个字节（四个段）。

发送前四个段的时候，不需要等待任何ACK，直接发送；
收到第一个ACK后，滑动窗口向后移动，继续发送第五个段的数据；依次类推；
操作系统内核为了维护这个滑动窗口，需要开辟发送缓冲区来记录当前还有哪些数据没有应答；
只有确认应答过的数据，才能从缓冲区删掉；
窗口越大，则网络的吞吐率就越高；

那么如果出现了丢包，如何进行重传？

数据包到了，ACK丢了

可以通过后续的ACK来确认。

2. 数据丢了

如果发送端主机连续三次收到了同样一个 "1001" 这样的应答，就会将对应的数据 1001 - 2000 重新发送；

这种机制被称为“高速重法控制”（也叫快重传）

流量控制（安全机制）

是滑动窗口的一个延伸。

TCP支持根据接收端的处理能力，来决定发送端的发送速度，这个机制就叫做流量控制。

拥塞控制（安全机制）

TCP引入慢启动机制，先发少量的数据，探探路，摸清当前的网络拥堵状态，再决定按照多大的速度传输数据；

延迟应答（效率机制）

如果接收数据的主机立刻返回ACK应答，这时候返回的窗口可能比较小。

一定要记得，窗口越大，网络吞吐量就越大，传输效率就越高。我们的目标是在保证网络不拥塞的情况下尽量提高传输效率；

捎带应答（效率机制）

刚才的从四次握手合为三次握手就是捎带应答机制，在我们会ACK的时候，顺带着就把我们建立连接的请求发送过去了。

粘包问题

首先要明确，粘包问题中的 "包" ，是指的应用层的数据包。

在TCP的协议头中，没有如同UDP一样的 "报文长度" 这样的字段，但是有一个序号这样的字段。

站在传输层的角度，TCP是一个一个报文过来的。按照序号排好序放在缓冲区中。

站在应用层的角度，看到的只是一串连续的字节数据。

那么应用程序看到了这么一连串的字节数据，就不知道从哪个部分开始到哪个部分，是一个完整的应用层数据包。

那么如何避免粘包问题呢？归根结底就是一句话，明确两个包之间的边界

对于定长的包，保证每次都按固定大小读取即可；
例如上面的Request结构，是固定大小的，那么就从缓冲区从头开始按sizeof（Request）依次读取即可；
对于变长的包，可以在包头的位置，约定一个包总长度的字段，从而就知道了包的结束位置；
对于变长的包，还可以在包和包之间使用明确的分隔符（应用层协议，是程序猿自己来定的，只要保证分隔符不和正文冲突即可）；

对于UDP协议来说，是否也存在 "粘包问题" 呢？

对于UDP，如果还没有上层交付数据，UDP的报文长度仍然在。同时，UDP是一个一个把数据交付给应用层。就有很明确的数据边界。

站在应用层的站在应用层的角度，使用UDP的时候，要么收到完整的UDP报文，要么不收。不会出现"半个"的情况。

TCP异常情况

进程终止：进程终止会设防文件描述符，仍然可以发送FIN。和正常关闭没有什么区别。

机器重启：和进程终止情况相同。

机器掉电/网线断开：接收端认为连接还在，一旦接收端有写入操作，接收端发现连接已经不在了，就会进行reset。即使没有写入操作，TCP自己也内置了一个保活定时器，会定期询问对方是否还在。如果对方不在，也会把连接释放。

TCP和UDP的对比

我们说了TCP是可靠连接，那么是不是TCP一定就优于UDP呢？TCP和UDP之间的优点和缺点，不能简单，绝对的进行比较

TCP用于可靠传输的情况，应用于文件传输，重要状态更新等场景；

UDP用于对高速传输和实时性要求较高的通信领域，例如，早期的QQ，视频传输等。另外 UDP可以用于广播；

3.网络层（负责点到点的路径规则）

IP协议是网络层协议，并不是说网络层协议一定是IP协议。

IP协议头格式

4位版本：IPV4 IPV6，指的是IPV4
4位首部长度：IP头部的长度是多少个32bit,也就是legth*4个字节数。4bit表示最大的数字是15，因此IP头部最大长度位60字节。
八位服务类型：3位优先权字段（已经弃用），4位TOS字段，和1位保留字段（必须置为0）。4位TOS分别表示：最小延时，最大吞吐量，最高可靠性，最小成本。这四者相互冲突，只能选择一个。对于ssh/telnet这样的应用程序，最小延时比较重要；对于 ftp这样的程序，最大吞吐量比较重要。简单来说就是有好几种路径去实现目的，有好几种分类排序，你最需要哪种就选择那这种就好了。例如去往一个目的地，好几种方案可供选择：最短时间，最少换乘，价格最优，，，，最需要那种选择哪种。
16位总长度：IP数据报整体占多少个字节。
16位标识：唯一的标识主机发送的报文。如果IP报文在数据链路层被分片了，那么每一个片里面的这个id都是相同的。
3位标志：第一位保留（保留的意思是现在不用，但是还没想好说不定以后要用到）。第二位置为1表示禁止分片，这时候如果报文长度超过MTU，IP模块就会丢弃报文。第三位表示"更多分片"，如果分片了的话，最后一个分片置为0，其他是1。类似于一个结束标记。
13位偏移:

8位生存时间：单位不是s也不是ms.数据报到达目的地的最大报文跳数。一般是64，每经过一个路由，TTL-1，一直减到0还没到达就丢弃。这个字段主要是防止出现路由循环。
8位协议：传输层协议的类型
16位头部校验和：使用CRC进行校验，鉴别头部是否损坏
32位源地址和32位目标地址：表示发送端和接收端。

4.数据链路层（相邻节点，MAC）

以太网

"以太网" 不是一种具体的网络，而是一种技术标准；
既包含了数据链路层的内容，也包含了一些物理层的内容。例如：规定了网络拓扑结构，访问控制方式，传输速率等；例如以太网中的网线必须使用双绞线；传输速率有10M，100M，1000M等；
以太网是当前应用最广泛的局域网技术；和以太网并列的还有令牌环网，无线LAN等；

帧协议类型字段有三种值，分别对应IP、ARP、RARP；

MAC地址即物理地址，每个设备出场就会被分配自己的唯一的MAC地址.

MTU

以太网的最大传输单位： MTU

以太网帧中的数据长度规定最小46字节，最大1500字节，ARP数据包的长度不够46字节，要在后面补填充位；
最大值1500称为以太网的最大传输单元（MTU），不同的网络类型有不同的MTU；
如果一个数据包从以太网路由到拨号链路上，数据包长度大于拨号链路的MTU了，则需要对数据包进行分片（fragmentation）；
不同的数据链路层标准的MTU是不同的；

ARP协议

虽然我们在这里介绍ARP协议，但是需要强调，ARP不是一个单纯的数据链路层的协议，而是一个介于 数据链路层和网络层之间的协议；

ARP协议的作用

ARP协议建立了主机IP地址和MAC地址的映射关系。

ARP协议的工作流程

源主机发出ARP请求，询问“IP地址是192.168.0.1的主机的硬件地址是多少”，并将这个请求广播到本地网段（以太网帧首部的硬件地址填FF:FF:FF:FF:FF:FF表示广播）；
目的主机接收到广播的ARP请求，发现其中的IP地址与本机相符，则发送一个ARP应答数据包给源主机，将自己的硬件地址填写在应答包中；
每台主机都维护一个ARP缓存表，可以用arp -a命令查看。缓存表中的表项有过期时间（一般为20分钟），如果20分钟内没有再次使用某个表项，则该表项失效，下次还要发ARP请求来获得目的主机的硬件地址