以太网基础——TCP/IP协议

在展开介绍TCP/IP协议之前，首先介绍一下七层ISO模型，国际标准化组织ISO为了使网络应用更为普及，推出了OSI参考模型，即开放式系统互连（Open System Interconnect）模型，一般都叫做OSI参考模型，OSI参考模型是ISO组织在1985年发布的网络互联模型，其含义就是为所有公司使用一个统一的规范来控制网络，这样所有公司遵循相同的通信规范，网络就能互联互通了。

2.1：OSI模型的七层框架

OSI模型定义了网络互连的七层框架（物理层，数据链路层，网络层，传输层，会话层，表示层，应用层），每一层实现册子的功能和协议，并完成与相邻层的接口通信，OSI模型各层的通信协议，大致举例如下表所示：

表：OSI模型各层的通信协议举例

应用层	HTTP、SMTP、SNMP、FTP、Telnet、SIP、SSH、NFS、RTSP、XMPP、Whois、ENRP、等等
表示层	XDR、ASN.1、SMB、AFP、NCP、等等
会话层	ASAP、SSH、RPC、NetBIOS、ASP、Winsock、BSD Sockets、等等
传输层	TCP、UDP、TLS、RTP、SCTP、SPX、ATP、IL、等等
网络层	IP、ICMP、IGMP、IPX、BGP、OSPF、RIP、IGRP、EIGRP、ARP、RARP、X.25、等等
数据链路层	以太网、令牌环、HDLC、帧中继、ISDN、ATM、IEEE 802.11、FDDI、PPP、等等
物理层	例如铜缆、网线、光缆、无线电等等

TCP/IP协议是Internet互联网络最基本的协议，其在一定程度上参考了七层ISO模型，OSI模型共有七层，层下到上分别是物理层，数据链路层，网络层，运输层，会话层，表示层和应用层，但是这显然是有些复杂的，所以在TCP/IP协议中，七层被简化为了四个层次，TCP/IP模型中的各种协议，依其功能不同，被分别归属到这四层之中，常被是为是简化之后的七层OSI模型。

2.2:TCP/IP协议与七层ISO模型的对应关系

TCP/IP协议与七层ISO模型的对应关系。大致如下所示：

OSI参考模型： TCP/IP协议：

7	应用层	应用层 HTTP/FTP/SMTP/Telnet
6	表示层
5	会话层
4	传输层	传输层 TCP/UDP
3	网络层	网络层 TCMP，IP，IGMP
2	数据链路层	链路层 ARP，RARP
1	物理层	链路层 ARP，RARP

TCP/IP协议的应用层的主要协议有HTTP，Telent，FTP，SMTP等，是用来读取来自传输层的数据或者将数据传输写入传输层；传输层的主要协议有UDP，TCP，实现端对端的数据传输；网络层的主要协议有ICMP，IP，IGMP，主要负责网络数据中数据包的传送等；链路层有时也称作数据链路层或者网络接口层，主要协议有ARP，RARP，通常包括操作系统中的设备驱动程序和计算机中对应的网络接口卡，他们一起处理与传输媒介（如电缆或其他物理设备）的物理接口细节。

2.2.1：TCP/IP协议的应用层

应用层包括所有和应用程序协同工作，并利用基础网络交换应用程序的业务数据的协议，一些特定的程序被认为运行在这个层上，该层协议所提供的服务能直接支持用户应用，应用层协议包括HTTP（万维网服务），FTP（文件传输），SMTP（电子邮件），SSH（安全远程登陆），DNS（域名解析）以及许多其他协议。

2.2.2：TCP/IP协议的传输层

传输层的协议，解决了诸如端到端可靠性问题，能确保数据可靠的到达目的地，甚至能保证数据按照正确的顺序到达目的地，传输层的主要功能大致如下：

（1）为端到端连接提供传输服务；

（2）这种传输服务分为可靠和不可靠的，其中TCP是典型的可靠传输，而UDP则是不可靠传输；

（3）为端到端连接提供流量控制，差错控制，Qos（Quality of Service）服务质量等管理服务；

传输层主要有两个性质不同的协议：TCP传输控制协议和UDP用户数据报协议

TCP协议是一个面向连接的，靠谱的传输协议，它提供一种可靠的字节流，能保证数据完整，无损并且按照顺序到达，TCP尽量连续不断的测试网络的负载并且控制发送数据的速度以避免网络过载，另外，TCP试图将数据按照规定的顺序发送。

UDP协议是一个无连接的数据报协议，是一个“尽力传输”和“不可靠协议”，不会对数据包是否达到目的地进行检查，并且不保证数据包按照顺序达到。

总体来说，TCP协议传输效率低，但是可靠性强；UDP协议传输效率高，但是可靠性略低，适用于传输可靠性要求不高，体量小的数据（比如QQ聊天数据）。

2.2.3：TCP/IP协议的网络层

TCP/IP协议网络层的作用是在复杂的网络环境中为要发送的数据报找到一个合适的路径机械能传输，简单来说，网络层负责将数据传输到目标地址，目标地址可以是多个网络通过路由器连接而成的某一个地址，另外，网络层负责寻找合适的路径到达对方计算机，并把数据帧传送给对方，网络层还可以实现拥塞控制，网际互联等功能，网络层协议的代表包括：ICMP，IP，IGMP等。

2.2.4：TCP/IP协议的链路层

链路层有时也称作数据链路层或者网络链路层，用来处理连接网络的硬件部分，该层既包括操作系统硬件的驱动，NIC（网卡），光纤等物理课件部分，还包括连接器等一切传输媒介，在这一层，数据的传输单位为bit，其主要协议有ARP，RARP等；

3：图解物理层：使用MAC解决设备的身份证问题

3.1：通信的原始时代

你是一台电脑，你的名字叫A

很久很久以前，你不与任何其他电脑连接，孤苦伶仃

直到有一天，你希望与另一台电脑B建立通信，于是你们各自开了一个网口，用一根网线连接起来

用一根网线连接起来怎么就能通信了呢？我可以给你讲IO，讲中断，讲缓冲区，但这不是研究网络时该关心的问题。

如果你纠结，要么去研究一下操作系统是如何处理网络IO的，要么去研究一下是如何被网卡转换成电信号发送出去的，要么就仅仅把它当作电脑里有一个小人在开枪吧。

反正，你们就是连起来了，并且可以通信。

有一天，一个新伙伴C加入了，但聪明的你们很快发现，可以每个人开两个网口，用一共三根网线批次相连。

随着越来越多的人加入，你发现身上开的网口实在太多了，而且网线密密麻麻，混论不堪（而实际上一台电脑根本开不了这么多的网口，所以这种连线只在理论上可行，所以连不上的我就用红色的虚线表示了，就是这么严谨）

3.2：集线器的诞生

于是你发明了一个中间设备，你们将网线都插到这个设备上，由于这个设备做转发，就可以彼此之间通信了，本质上和原来一样，只不过网口的数量和网线的数量减少了，不再那么混乱。

你给它取名集线器，它仅仅是无脑的将电信号穿法到所有出口（广播），不做任何处理，你觉得它是没有智商的，因此把人家定性在了物理层。

由于转发到了所有出口，那么BCDE四台机器怎么直到数据包是不是发给自己的呢？

首先，你要给所有的连接到交换机的设备，都起一个名字，原来你们叫ABCD，但现在需要一个更专业的，全局唯一的名字作为标识，你把这个更高端的名字叫MAC地址。

你的MAC地址是aa-aa-aa-aa-aa-aa，你的伙伴b的MAC地址是bb-bb-bb-bb-bb-bb，以此类推不重复就好。

这样，A在发送数据包给B时，只要在头部拼接一个这样结构的数据，就可以了。

B在收到数据包后，根据头部的目标MAC地址信息，判断这个数据包的确是发给自己的，于是便收下。

其他的CDE收到数据包后，根据头部的目标MAC地址信息，判断这个数据包并不是发给自己的，于是便丢弃。

虽然集线器使整个布局干净不少，但原来我只要发给电脑B的消息，现在却要发给连接到集线器中的所有电脑，这样既不安全也不节省网络资源。

4.0：图解数据链路：使用交换机解决MAC地址映射问题

4.1：集线器的问题

如果把这个集线器弄得更智能一些，只发给目标MAC地址指向的那台电脑，就好了。

4.2：交换机的诞生

虽然之比集线器多了这一点点区别，但看起来似乎有智能了，你把这东西叫做交换机，也正是因为这一点点智能，你把它放在了另一个层级，数据链路层。

如上图所示，你是这样设计的。

交换机内部维护一张MAC地址表，记录着每一个MAC地址的设备，连接在其哪一个端口上。

MAC地址	端口
bb-bb-bb-bb-bb-bb	1
cc-cc-cc-cc-cc-cc	2
aa-aa-aa-aa-aa-aa	3
dd-dd-dd-dd-dd-dd	4

假如你仍然要发给B一个数据包，构造了如下的数据结构从网口出去。

到达交换机时，交换机内部通过自己维护的MAC地址表，发现目标机器B的MAC地址：bb-bb-bb-bb-bb-bb映射到了端口1上，于是把数据从1号端口发送给了B，完事~

你给这个通过这样传输方式而组成的小范围的网络，叫做以太网。

当然最开始的时候，MAC地址表是空的，是怎么逐步建立起来的呢？

假如在MAC地址表为空时，你给B发送了如下数据：

由于这个包从端口4进入的交换机，所以此时交换机就可以在MAC地址表记录第一条数据：

MAC：aa-aa-aa-aa-aa-aa-aa
端口：4

交换机看目标MAC地址（bb-bb-bb-bb-bb-bb）在地址表中并没有映射关系，于是将此包发给了所有端口，也即发给了所有机器。

之后，只有机器B收到了确实是发给自己的包，于是做出了响应，响应数据从端口1进入交换机，于是交换机此时在地址表中更新了第二条数据：

MAC：bb-bb-bb-bb-bb-bb
端口：1

过程如下：

经过该网络中的机器不断的通信，交换机最终将MAC地址表建立完毕~

随着机器越来越多，交换机的端口也不够用了，但是聪明的你发现，只要将多个交换机连接起来，这个问题就轻而易举的搞定了~

你完全不需要设计额外的东西，只需要按照之前的设计和规矩来，按照上述的方式即可完成所有电脑的互联，所以交换机设计的这种规则，真的很巧妙，你想想看为什么（比如A要发送数据给F）

但是你要注意，上面那根红色的线，最终在MAC地址表中可不是一条记录呀，而是要把EFGH这四台机器与该端口（端口6）的映射全部记录在表中。

4.3：MAC地址和端接的映射记录

最终，两个交换机将分别记录A~H所有机器的映射记录

左边的交换机：

MAC地址	端口
bb-bb-bb-bb-bb-bb	1
cc-cc-cc-cc-cc-cc	3
aa-aa-aa-aa-aa-aa	4
dd-dd-dd-dd-dd-dd	5
ee-ee-ee-ee-ee-ee	6
ff-ff-ff-ff-ff-ff	6
gg-gg-gg-gg-gg-gg	6
hh-hh-hh-hh-hh-hh	6

右边的交换机：

MAC地址	端口
bb-bb-bb-bb-bb-bb	1
cc-cc-cc-cc-cc-cc	1
aa-aa-aa-aa-aa-aa	1
dd-dd-dd-dd-dd-dd	1
ee-ee-ee-ee-ee-ee	2
ff-ff-ff-ff-ff-ff	3
gg-gg-gg-gg-gg-gg	4
hh-hh-hh-hh-hh-hh	6

这在只有8台电脑的时候还好，甚至在只有几百台电脑的时候，都还好所以这种交换机的设计方式，已经足够支撑一阵子了。

但是很遗憾，人是贪婪的动物，很快，电脑的数量就发展到几千，几万，几十万。

5.0：图解网络层：IP地址和路由器

5.1：二层交换机的问题

交换机已经无法记录如此庞大的映射关系了。

此时你动了歪脑筋，你发现了问题的根本在于，连出去的那根红色的网线，后面不知道有多少个设备不断的连接进来，从而使得地址表越来越大。

那我可不可以让那根红色的网线，接入一个新的设备，这个设备就跟一台电脑一样有自己独立的MAC地址，而且同时还能帮我把数据包做一次转发呢？

这个设备就是路由器，它的功能就是，作为一台独立的拥有MAC地址的设备，并且可以帮我把数据包做一次转发，你把它定在了网络层。

注意，路由器的每一个端口，都有独立的MAC地址

好了，现在交换机中的MAC地址表中，只需要多出一条MAC地址ABAB与其端口的映射关系，就可以成功的把数据包交给路由器了，这条搞定。

那如何做到，把发送给C和D，甚至是把发送给DEFGH.......的数据包，统统先发送给路由器呢？

不难想到这样一个电子，假如电脑C和D的MAC地址拥有共同的前缀，比如分别是：

C的MAC地址：FFFF-FFFF-CCCC D的MAC地址：FFFF-FFFF-DDDD

那我们就可以说，将目标MAC地址为FFFF-FFFF-?开头的，统统先发送给路由器。

这样是否可行呢？答案是否定的！

5.2：IP地址的诞生

我们先从现实中MAC地址的结构入手，MAC地址也叫做物理地址，硬件地址，长度为48bit，一般这样来表示：00-16-EA-3C-40

它是由于网络设备制造商生产时烧录在网卡的RPROM（一种闪存芯片，通常可以通过程序擦写）

其中前24位（00-16-EA）代表网络硬件制造商的编号，后24位（AE-3C-40）是该厂家分配的，一般表示系列号。

只要不更改自己的MAC地址，MAC地址在世界上是唯一的，形象的说，MAC地址就如同身份证上的身份证号码，具有唯一性。

那如果你希望向上面那样表示将目标MAC地址为FFFF-FFFF-?开头的，统一从路由器出书发给某一群设备（后面会提到这其实是子网的概念），那你就需要要求某一子网下都买这一个厂商的设备，要么你就需要要求厂商在生产网络设备烧录MAC地址时，提前按照规划好的子网结构来定MAC地址，并且日后这个网络的结构都不能变。

这显然是不现实的。于是你发明了一个新的地址，给每一台机器一个32bit的编号，如：

11000000101010000000000000000001

你觉得有些不清晰，于是把它分成四个部分，中间用点相连。

11000000.10101000.00000000.00000001

你还觉得不清晰，于是把它转换成 10 进制。

192.168.0.1

最后你给了这个地址一个响亮的名字，IP 地址。现在每一台电脑，同时有自己的 MAC 地址，又有自己的 IP 地址，只不过 IP 地址是软件层面上的，可以随时修改，MAC 地址一般是无法修改的。

这样一个可以随时修改的 IP 地址，就可以根据你规划的网络拓扑结构，来调整了。

如上图所示，假如我想要发送数据包给 ABCD 其中一台设备，不论哪一台，我都可以这样描述，"将 IP 地址为 192.168.0 开头的全部发送给到路由器，之后再怎么转发，交给它！"，巧妙吧？

5.3：路由器的诞生

路由器诞生了，专门负责IP地址的寻找。那报文交给路由器之后，路由器又是怎么把数据包准确转发给指定设备的呢？

别急我们慢慢来。

我们先给上面的组网方式中的每一台设备，加上自己的 IP 地址。

现在两个设备之间传输，除了加上数据链路层的头部之外，还要再增加一个网络层的头部。

假如 A 给 B 发送数据，由于它们直接连着交换机，所以 A 直接发出如下数据包即可，其实网络层没有体现出作用。

但假如 A 给 C 发送数据，A 就需要先转交给路由器，然后再由路由器转交给 C。由于最底层的传输仍然需要依赖以太网，所以数据包是分成两段的。

A-路由器这段的包如下：

路由器到C这段的包如下：

好了，上面说的两种情况（A->B, A->C），相信细心的读者应该会有不少疑问，下面我们一个个来展开。

5.4：子网的由来

A给C发送的数据包，怎么知道是否要通过路由器转发呢？

答案：子网

如果源IP与目的IP处于一个子网，直接将包通过交换机发出去。

如果源IP与目的IP不处于一个子网，就交给路由器去处理。

好，那现在就只需要解决，什么叫处于一个子网？

192.168.0.1 和 192.168.0.2 处于同一个子网
192.168.0.1 和 192.168.1.1 处于不同子网

这两个是我们人为规定的，即我们想表示，对于192.168.0.1来说：

192.168.0.xxx 开头的，就算是在一个子网，否则就是在不同的子网。

那对于计算机来说，怎么表达这个意思呢？于是人们发明了子网掩码的概念

假如某台计算机的子网掩码为255.255.255.0

这表示，将源IP与目的IP分别同这个子网掩码进行按位&运算，得到的结果相等就是在一个子网下，如果不相等就在不同的子网，就这么简单。

比如：

A电脑：192.168.0.1 & 255.255.255.0 = 192.168.0.0
B电脑：192.168.0.2 & 255.255.255.0 = 192.168.0.0
C电脑：192.168.1.1 & 255.255.255.0 = 192.168.1.0
D电脑：192.168.1.2 & 255.255.255.0 = 192.168.1.0

那么A与B在同一个子网，C与D在同一个子网，但是A与C就不在同一个子网，与D也不在同一个子网，以此类推。

所以如果A给C发消息，A和C的IP地址分别&A机器配置的子网掩码，发现不相等，则A认为C和自己不在同一个子网，于是把包发给路由器，就不管了，之后怎么转发，A不关心。

A怎么知道，哪个设备是路由器呢？

答案：在A上要设置网关。

上一步 A 通过是否与 C 在同一个子网内，判断出自己应该把包发给路由器，那路由器的 IP 是多少呢？

其实说发给路由器不准确，应该说 A 会把包发给默认网关。

对 A 来说，A 只能直接把包发给同处于一个子网下的某个 IP 上，所以发给路由器还是发给某个电脑，对 A 来说也不关心，只要这个设备有个 IP 地址就行。

所以默认网关，就是 A 在自己电脑里配置的一个 IP 地址，以便在要发给不同子网的机器时，发给这个 IP 地址。

仅此而已；

5.5：路由表的由来（和MAC表的由来好像，都是逼出来的）

路由器如何知道C在哪里？

答案：路由表

现在 A 要给 C 发数据包，已经可以成功发到路由器这里了，最后一个问题就是，路由器怎么知道，收到的这个数据包，该从自己的哪个端口出去，才能直接（或间接）地最终到达目的地 C 呢。

路由器收到的数据包有目的 IP 也就是 C 的 IP 地址，需要转化成从自己的哪个端口出去，很容易想到，应该有个表，就像 MAC 地址表一样。

这个表就叫路由表。

至于这个路由表是怎么出来的，有很多路由算法，本文不展开，因为我也不会哈哈~

不同于 MAC 地址表的是，路由表并不是一对一这种明确关系，我们下面看一个路由表的结构。

目的地址	子网掩码	下一跳地址（表示数据包下一步应该转发到的下一个路由设备的 IP 地址）	端口
192.168.0.0	255.255.255.0		0
192.168.0.254	255.255.255.255		0
192.168.1.0	255.255.255.0		1
192.168.1.254	255.255.255.255		1

我们学习一种新的表示方法，由于子网掩码其实就表示前多少位表示子网的网段，所以如192.168.0.0（255.255.255.0）也可以简写为 192.168.0.0/24

目的地址	下一跳地址（表示数据包下一步应该转发到的下一个路由设备的 IP 地址）	端口
192.168.0.0/24		0
192.168.0.254/32		0
192.168.1.0/24		1
192.168.1.254/32		1

这就很好理解了，路由表就表示，192.168.0.xxx 这个子网下的，都转发到 0 号端口，192.168.1.xxx 这个子网下的，都转发到 1 号端口。下一跳列还没有值，我们先不管

配合着结构图来看（这里把子网掩码和默认网关都补齐了）

上面说的都是IP层，但发送数据包的数据链路层需要知道MAC地址，可是我只知道IP地址该怎么办呢？

答案：arp

假如你（A）此时不知道你同伴 B 的 MAC 地址（现实中就是不知道的，刚刚我们只是假设已知），你只知道它的 IP 地址，你该怎么把数据包准确传给 B 呢？

答案很简单，在网络层，我需要把 IP 地址对应的 MAC 地址找到，也就是通过某种方式，找到 192.168.0.2 对应的 MAC 地址 BBBB。

这种方式就是 arp 协议，同时电脑 A 和 B 里面也会有一张 arp 缓存表，表中记录着 IP 与 MAC 地址的对应关系。

IP地址	MAC地址
192.168.0.2	BBBB

一开始的时候这个表是空的，电脑A为了知道电脑B（192.168.0.2）的MAC地址，将会广播一条arp请求，B收到请求后，带上自己的MAC地址给A一个响应，此时A便更新了自己的arp表，这样通过大家不断广播arp请求，最终所有的电脑里都将arp缓存表更新完整。

6.0：图解整个传输过程

总结：

从各个节点的视角来看

6.1：电脑视角

首先我要知道我的 IP 以及对方的 IP
通过子网掩码判断我们是否在同一个子网
在同一个子网就通过 arp 获取对方 mac 地址直接扔出去
不在同一个子网就通过 arp 获取默认网关的 mac 地址直接扔出去

6.2：交换机视角

我收到的数据包必须有目标 MAC 地址
通过 MAC 地址表查映射关系
查到了就按照映射关系从我的指定端口发出去
查不到就所有端口都发出去

6.3：路由器视角

我收到的数据包必须有目标 IP 地址
通过路由表查映射关系
查到了就按照映射关系从我的指定端口发出去（不在任何一个子网范围，走其路由器的默认网关也是查到了）
查不到则返回一个路由不可达的数据包

如果你嗅觉足够敏锐，你应该可以感受到下面这句话：

网络层（IP协议）本身没有传输包的功能，包的实际传输是委托给数据链路层（以太网中的交换机）来实现的。

这里涉及到了三张表分别是：

交换机中有 MAC 地址表用于映射 MAC 地址和它的端口	MAC 地址表是通过以太网内各节点之间不断通过交换机通信，不断完善起来的。
路由器中有路由表用于映射目的IP 地址(段)和它对应连接的端口	路由表是各种路由算法 + 人工配置逐步完善起来的。
电脑和路由器中都有 arp 缓存表用于缓存 IP 和 MAC 地址的映射关系	arp 缓存表是不断通过 arp 协议的请求逐步完善起来的

知道了以上这些，目前网络上两个节点是如何发送数据包的这个过程，就完全可以解释通了！

7.0：参考的网络拓扑图

那接下来我们就放上参考的 最后一个网络拓扑图吧，请做好战斗准备！

详细过程动画描述：

详细的文字过程描述：

首先 A（192.168.0.1）通过子网掩码（255.255.255.0）计算出自己与 F（192.168.2.2）并不在同一个子网内，于是决定发送给默认网关（192.168.0.254）
A 通过 ARP 找到默认网关 192.168.0.254 的 MAC 地址。
A 将源 MAC 地址（AAAA）与网关 MAC 地址（ABAB）封装在数据链路层头部，又将源 IP 地址（192.168.0.1）和目的 IP 地址（192.168.2.2）（注意这里千万不要以为填写的是默认网关的 IP 地址，从始至终这个数据包的两个 IP 地址都是不变的，只有 MAC 地址在不断变化）封装在网络层头部，然后发包；
交换机 1 收到数据包后，发现目标 MAC 地址是 ABAB，转发给路由器1
数据包来到了路由器 1，发现其目标 IP 地址是 192.168.2.2，查看其路由表（子网掩码），发现了下一跳的地址是 192.168.100.5*
所以此时路由器 1 需要做两件事，第一件是再次匹配路由表（端口查找），发现匹配到了端口为 2，第二件事是arp一下得到路由器2的MAC地址D2D2，于是将其封装到数据链路层，最后把包从 2 号口发出去。
此时路由器 2 收到了数据包，看到其目的地址是 192.168.2.2，查询其路由表，匹配到端口号为 1，准备从 1 号口把数据包送出去。
但此时路由器 2 需要知道 192.168.2.2 的 MAC 地址了，于是查看其 arp 缓存，找到其 MAC 地址为 FFFF，将其封装在数据链路层头部，并从 1 号端口把包发出去。
交换机 3 收到了数据包，发现目的 MAC 地址为 FFFF，查询其 MAC 地址表，发现应该从其 6 号端口出去，于是从 6 号端口把数据包发出去。
F 最终收到了数据包！**并且发现目的 MAC 地址就是自己，于是收下了这个包。

读到这相信大家已经很累了，理解上述过程基本上网络层以下的部分主流程就基本疏通了。

8.0：HTTP报文传输原理

以一个HTTP请求的传输为例，请求从HTTP客户端（如浏览器）和HTTP服务端应用的传输过程，大致如下图所示：

8.1：数据封装和分用

接下来，为大家介绍一下数据封装和分用。

数据通过互联网传输的时候不可能是光秃秃的不加标识，如果这样数据就会乱。所以数据在发送的时候，需要加上特定标识，加上特定标识的过程叫做数据的封装，在数据使用的时候再去掉特定标识，去掉特定标识的过程就叫做分用。TCP/IP协议的数据封装和分用过程，大致如下图所示：

在数据封装时，数据经过每个层都会打上该层特定标识，添加上头部。

在传输层封装时，添加的报文首部时要存入一个应用程序的标识符，无论TCP和UDP都用一个16位的端口号来表示不同的应用程序，并且都会将源端口和目的端口存入报文首部中。

在网络层封装时，IP首部会标识处理数据的协议类型，或者说标识出网络层数据帧所携带的上层数据类型，如TCP、UDP、ICMP、IP、IGMP等等。具体来说，会在IP首部中存入一个长度为8位的数值，称作协议域：1表示为ICMP协议、2表示为IGMP协议、6表示为TCP协议、17表示为UDP协议、等等。IP首部还会标识发送方地址（源IP）和接收方地址（目标IP）。

在链路层封装时，网络接口分别要发送和接收IP、ARP和RARP等多种不同协议的报文，因此也必须在以太网的帧首部中加入某种形式的标识，以指明所处理的协议类型，为此，以太网的报文帧的首部也有一个16位的类型域，标识出以太网数据帧所携带的上层数据类型，如IPv4、ARP、IPV6、PPPoE等等。

数据封装和分用的过程大致为：发送端每通过一层会增加该层的首部，接收端每通过一层则删除该层的首部。

总体来说，TCP/IP分层管理、数据封装和分用的好处：分层之后若需改变相关设计，只需替换变动的层。各层之间的接口部分规划好之后，每个层次内部的设计就可以自由改动。层次化之后，设计也变得相对简单：各个层只需考虑分派给自己的传输任务。

TCP/IP与OSI的区别主要有哪些呢？除了TCP/IP与OSI在分层模块上稍有区别，更重要的区别为：OSI参考模型注重“通信协议必要的功能是什么”，而TCP/IP则更强调“在计算机上实现协议应该开发哪种程序”。

实际上，在传输过程中，数据报文会在不同的物理网络之间传递，还是以一个HTTP请求的传输为例，请求在不同物理网络之间的传输过程，大致如下图所示：

数据包在不同物理网络之间的传输过程中，网络层会通过路由器去对不同的网络之间的数据包进行存储、分组转发处理。构造互连网最简单的方法是把两个或多个网络通过路由器进行连接。路由器可以简单理解为一种特殊的用于网络互连的硬件盒，其作用是为不同类型的物理网络提供连接：以太网、令牌环网、点对点的链接和FDDI（光纤分布式数据接口）等等。

物理网络之间通过路由器进行互连，随着增加不同类型的物理网络，可能会有很多个路由器，但是对于应用层来说仍然是一样的，TCP协议栈为大家屏蔽了物理层的复杂性。总之，物理细节和差异性的隐藏，使得互联网TCP/IP传输的功能变得非常强大。

接下来，开始为大家介绍与传输性能有密切关系的内容：TCP传输层的三次握手建立连接，四次挥手释放连接。不过在此之前，还得先介绍一下TCP报文协议。

9.0：TCP协议的报文格式

在TCP/IP协议栈中，IP协议层只关心如何使数据能够跨越本地网络边界的问题（即只解决数据的路由问题），而不关心数据如何传输。整体TCP/IP协议栈，共同配合一起解决数据如何通过许许多多个点对点通路，顺利传输到达目的地。一个点对点通路被称为一“跳”（hop），通过TCP/IP协议栈，网络成员能够在许多“跳”的基础上建立相互的数据通路。

传输层TCP协议提供了一种面向连接的、可靠的字节流服务，其数据帧格式，大致如下图所示：

详细说明上图，一个传输层TCP协议的数据帧，大致包含以下字段：

9.1：源端口号

源端口号表示报文的发送端口，占16位。源端口（发送报文的进程所使用的本地端口号）和 源IP地址组合起来，可以标识报文的发送地址。

9.2：目的端口号

目的端口号表示报文的接收端口，占16位。目的端口和目的IP地址相结合，可以标识报文的接收地址。

TCP协议是基于IP协议的基础上传输的，TCP报文中的源端口号+源IP，与TCP报文中的目的端口号+目的IP一起，组合起来唯一性的确定一条TCP连接。

9.3：序号（sequence number）

TCP传输过程中，在发送端出的字节流中，传输报文中的数据部分的每一个字节都有它的编号。序号（Sequence Number）占32位，发起方发送数据时，都需要标记序号。

序号（Sequence Number）的语义与SYN控制标志（Control Bits）的值有关。根据控制标志（Control Bits）中的SYN是否为1，序号（Sequence Number）表达不同的含义：

（1）当SYN = 1时，当前为连接建立阶段，此时的序号为初始序号ISN((Initial Sequence Number)，通过算法来随机生成序号；

（2）当SYN = 0时在数据传输正式开始时，第一个报文的序号为 ISN + 1，后面的报文的序号，为前一个报文的SN值+TCP报文的净荷字节数(不包含TCP头)。比如，如果发送端发送的一个TCP帧的净荷为12byte，序号为5，则发送端接着发送的下一个数据包的时候，序号的值应该设置为5+12=17。

在数据传输过程中，TCP协议通过序号（Sequence Number）对上层提供有序的数据流。发送端可以用序号来跟踪发送的数据量；接收端可以用序号识别出重复接收到的TCP包，从而丢弃重复包；对于乱序的数据包，接收端也可以依靠序号对其进行排序。

9.4：确认序号（Acknowledgment Number）

确认序号（Acknowledgment Number）标识了报文接收端期望接收的字节序列。如果设置了ACK控制位，确认序号的值表示一个准备接收的包的序列码，注意，它所指向的是准备接收的包，也就是下一个期望接收的包的序列码。

举个例子，假设发送端（如Client）发送3个净荷为1000byte、起始SN序号为1的数据包给Server服务端，Server每收到一个包之后，需要回复一个ACK响应确认数据包给Client。ACK响应数据包的ACK Number值，为每个Client包的为SN+包净荷，既表示Server已经确认收到的字节数，还表示期望接收到的下一个Client发送包的SN序号，具体的ACK值如下图左边的正常传输部分所示。

在上图的左边部分，Server第1个ACK包的ACK Number值为1001，是通过Client第1个包的SN+包净荷=1+1000计算得到，表示期望第2个Client包的SN序号为1001；Server第2个ACK包的ACK Number值为2001，为Client第2个包的SN+包净荷=2001，表示期望第3个Server包的SN为2001，以此类推。

如果发生错误，假设Server在处理Client的第二个发送包异常，Server仍然回复一个ACK Number值为1001的确认包，则Client的第二个数据包需要重复发送，具体的ACK值如上图右边的正常传输部分所示。

只有控制标志的ACK标志为1时，数据帧中的确认序号ACK Number才有效。TCP协议规定，连接建立后，所有发送的报文的ACK必须为1，也就是建立连接后，所有报文的确认序号有效。如果是SYN类型的报文，其ACK标志为0，故没有确认序号。

9.5：头部长度

该字段占用4位，用来表示TCP报文首部的长度，单位是4bit位。其值所表示的并不是字节数，而是头部的所含有的32bit的数目（或者倍数），或者4个字节的倍数，所以TCP头部最多可以有60字节（4*15=60）。没有任何选项字段的TCP头部长度为20字节，所以其头部长度为5，可以通过20/4=5计算得到。

9.6：预留6位

头部长度后面预留的字段长度为6位，作为保留字段，暂时没有什么用处。

9.7：控制标志

控制标志（Control Bits）共6个bit位，具体的标志位为：URG、ACK、PSH、RST、SYN、FIN。6个标志位的说明，如下表所示。

表：TCP报文控制标志（Control Bits）说明

标志位	说明
URG	占1位，表示紧急指针字段有效。URG位指示报文段里的上层实体（数据）标记为“紧急”数据。当URG=1时，其后的紧急指针指示紧急数据在当前数据段中的位置(相对于当前序列号的字节偏移量)，TCP接收方必须通知上层实体。
ACK	占1位，置位ACK=1表示确认号字段有效；TCP协议规定，接建立后所有发送的报文的ACK必须为1；当ACK=0时，表示该数据段不包含确认信息。当ACK=1时，表示该报文段包括一个对已被成功接收报文段的确认序号Acknowledgment Number，该序号同时也是下一个报文的预期序号。
PSH	占1位，表示当前报文需要请求推（push）操作；当PSH=1时，接收方在收到数据后立即将数据交给上层，而不是直到整个缓冲区满。
RST	占1位，置位RST=1表示复位TCP连接；用于重置一个已经混乱的连接，也可用于拒绝一个无效的数据段或者拒绝一个连接请求。如果数据段被设置了RST位，说明报文发送方有问题发生。
SYN	占1位，在连接建立时用来同步序号。当SYN=1而ACK=0时，表明这是一个连接请求报文。对方若同意建立连接，则应在响应报文中使SYN=1和ACK=1。综合一下，SYN置1就表示这是一个连接请求或连接接受报文。
FIN	占1位，用于在释放TCP连接时，标识发送方比特流结束，用来释放一个连接。当 FIN = 1时，表明此报文的发送方的数据已经发送完毕，并要求释放连接。

在连接建立的三次握手过程中，若只是单个SYN置位，表示的只是建立连接请求。如果SYN和ACK同时置位为1，表示的建立连接之后的响应。

9.8：窗口大小

长度为16位，共2个字节。此字段用来进行流量控制。流量控制的单位为字节数，这个值是本端期望一次接收的字节数。

9.9：校验和计算

长度为16位，共2个字节。对整个TCP报文段，即TCP头部和TCP数据进行校验和计算，接收端用于对收到的数据包进行验证。

9.10：紧急指针

长度为16米，2个字节。它是一个偏移量，和SN序号值相加表示紧急数据最后一个字节的序号。

以上十项内容是TCP报文首部必须的字段，也称固有字段，长度为20个字节。接下来是TCP报文的可选项和填充部分。

9.11：可选项和填充部分

可选项和填充部分的长度为4n字节（n是整数），该部分是根据需要而增加的选项。如果不足4n字节，要加填充位，使得选项长度为32位（4字节）的整数倍，具体的做法是在这个字段中加入额外的零，以确保TCP头是32位（4字节）的整数倍。

最常见的选项字段是MSS（Maximum Segment Size最长报文大小），每个连接方通常都在通信的第一个报文段（SYN标志为1的那个段）中指明这个选项字段，表示当前连接方所能接受的最大报文段的长度。

由于可选项和填充部分不是必须的，所以TCP报文首部最小长度为20个字节。

至此，TCP报文首部的字段，就全部介绍完了。TCP报文首部的后面，接着的是数据部分，不过数据部分是可选的。在一个连接建立和一个连接终止时，双方交换的报文段仅有TCP首部。如果一方没有数据要发送，也使用没有任何数据的首部来确认收到的数据，比如在处理超时的过程中，也会发送不带任何数据的报文段。

总体来说，TCP协议的可靠性，主要通过以下几点来保障：

（1）应用数据分割成TCP认为最适合发送的数据块。这部分是通过MSS（最大数据包长度）选项来控制的，通常这种机制也被称为一种协商机制，MSS规定了TCP传往另一端的最大数据块的长度。值得注意的是，MSS只能出现在SYN报文段中，若一方不接收来自另一方的MSS值，则MSS就定为536字节。一般来讲，MSS值还是越大越好，这样可以提高网络的利用率。

（2）重传机制。设置定时器，等待确认包，如果定时器超时还没有收到确认包，则报文重传。

（3）对首部和数据进行校验。

（4）接收端对收到的数据进行排序，然后交给应用层。

（5）接收端丢弃重复的数据。

（6）TCP还提供流量控制，主要是通过滑动窗口来实现流量控制。

至此，TCP协议的数据帧格式介绍完了。接下来开始为大家重点介绍：TCP传输层的三次握手建立连接，四次挥手释放连接。

10：TCP的三次握手

10.1：三次握手过程

TCP连接的建立时，双方需要经过三次握手，具体过程如下：

（1）第一次握手：Client进入SYN_SENT状态，发送一个SYN帧来主动打开传输通道，该帧的SYN标志位被设置为1，同时会带上Client分配好的SN序列号，该SN是根据时间产生的一个随机值，通常情况下每间隔4ms会加1。除此之外，SYN帧还会带一个MSS（最大报文段长度）可选项的值，表示客户端发送出去的最大数据块的长度。

（2）第二次握手：Server端在收到SYN帧之后，会进入SYN_RCVD状态，同时返回SYN+ACK帧给Client，主要目的在于通知Client，Server端已经收到SYN消息，现在需要进行确认。Server端发出的SYN+ACK帧的ACK标志位被设置为1，其确认序号AN（Acknowledgment Number）值被设置为Client的SN+1；SYN+ACK帧的SYN标志位被设置为1，SN值为Server端生成的SN序号；SYN+ACK帧的MSS（最大报文段长度）表示的是Server端的最大数据块长度。

（3）第三次握手：Client在收到Server的第二次握手SYN+ACK确认帧之后，首先将自己的状态会从SYN_SENT变成ESTABLISHED，表示自己方向的连接通道已经建立成功，Client可以发送数据给Server端了。然后，Client发ACK帧给Server端，该ACK帧的ACK标志位被设置为1，其确认序号AN（Acknowledgment Number）值被设置为Server端的SN序列号+1。还有一种情况，Client可能会将ACK帧和第一帧要发送的数据，合并到一起发送给Server端。

（4）Server端在收到Client的ACK帧之后，会从SYN_RCVD状态会进入ESTABLISHED状态，至此，Server方向的通道连接建立成功，Server可以发送数据给Client，TCP的全双工连接建立完成。

10.2：三次握手图解

三次握手的交互过程，具体如下图所示：

Client和Server完成了三次握手后，双方就进入了数据传输的阶段。数据传输完成后，连接将断开，连接断开的过程需要经历四次挥手。

11：TCP的四次挥手

业务数据通信完成之后，TCP连接开始断开（或者拆接）的过程，在这个过程中连接的每个端的都能独立地、主动的发起，断开的过程TCP协议使用了四路挥手操作。

11.1：四次挥手具体过程

四次挥手具体过程，具体如下：

（1）第一次挥手：主动断开方（可以是客户端，也可以是服务器端），向对方发送一个FIN结束请求报文，此报文的FIN位被设置为1，并且正确设置Sequence Number（序列号）和Acknowledgment Number（确认号）。发送完成后，主动断开方进入FIN_WAIT_1状态，这表示主动断开方没有业务数据要发送给对方，准备关闭SOCKET连接了。

（2）第二次挥手：正常情况下，在收到了主动断开方发送的FIN断开请求报文后，被动断开方会发送一个ACK响应报文，报文的Acknowledgment Number（确认号）值为断开请求报文的Sequence Number（序列号）加1，该ACK确认报文的含义是：“我同意你的连接断开请求”。之后，被动断开方就进入了CLOSE-WAIT（关闭等待）状态，TCP协议服务会通知高层的应用进程，对方向本地方向的连接已经关闭，对方已经没有数据要发送了，若本地还要发送数据给对方，对方依然会接受。被动断开方的CLOSE-WAIT（关闭等待）还要持续一段时间，也就是整个CLOSE-WAIT状态持续的时间。

主动断开方在收到了ACK报文后，由FIN_WAIT_1转换成FIN_WAIT_2状态。

（3）第三次挥手：在发送完成ACK报文后，被动断开方还可以继续完成业务数据的发送，待剩余数据发送完成后，或者CLOSE-WAIT（关闭等待）截止后，被动断开方会向主动断开方发送一个FIN+ACK结束响应报文，表示被动断开方的数据都发送完了，然后，被动断开方进入LAST_ACK状态。

（4）第四次挥手：主动断开方收在到FIN+ACK断开响应报文后，还需要进行最后的确认，向被动断开方发送一个ACK确认报文，然后，自己就进入TIME_WAIT状态，等待超时后最终关闭连接。处于TIME_WAIT状态的主动断开方，在等待完成2MSL的时间后，如果期间没有收到其他报文，则证明对方已正常关闭，主动断开方的连接最终关闭。

被动断开方在收到主动断开方的最后的ACK报文以后，最终关闭了连接，自己啥也不管了。

11.2：四次挥手图解

四次挥手的全部交互过程，具体如下图所示：

处于TIME_WAIT状态的主动断开方，在等待完成2MSL的时间后，才真正关闭连接通道，其等待的时间为什么是2MSL呢？

2MSL翻译过来就是两倍的MSL。MSL全称为Maximum Segment Lifetime，指的是一个TCP报文片段在网络中最大的存活时间，具体来说，2MSL对应于一次消息的来回（一个发送和一个回复）所需的最大时间。如果直到2MSL，主动断开方都没有再一次收到对方的报文（如FIN报文），则可以推断ACK已经被对方成功接收，此时，主动断开方将最终结束自己的TCP连接。所以，TCP的TIME_WAIT状态也称为2MSL等待状态。

有关MSL的具体的时间长度，在RFC1122协议中推荐为2分钟。在SICS（瑞典计算机科学院）开发的一个小型开源的TCP/IP协议栈——LwIP开源协议栈中MSL默认为1分钟。在源自Berkeley的TCP协议栈实现中MSL默认长度为30秒。总体来说，TIME_WAIT（2MSL）等待状态的时间长度，一般维持在1-4分钟之间。

通过三次握手建立连接和四次挥手拆除连接，一次TCP的连接建立及拆除，至少进行7次通信，可见其成本是很高的。

12：常见面试试题

问题1：为什么关闭连接的需要四次挥手，而建立连接却只要三次握手呢？

关闭连接时，被动断开方在收到对方的FIN结束请求报文时，很可能业务数据没有发送完成，并不能立即关闭连接，被动方只能先回复一个ACK响应报文，告诉主动断开方：“你发的FIN报文我收到了，只有等到我所有的业务报文都发送完了，我才能真正的结束，在结束之前，我会发你FIN+ACK报文的，你先等着”。所以，被动断开方的确认报文，需要拆开成为两步，故总体就需要四步挥手。

而在建立连接场景中，Server端的应答可以稍微简单一些。当Server端收到Client端的SYN连接请求报文后，其中ACK报文表示对请求报文的应答，SYN报文用来表示服务端的连接也已经同步开启了，而ACK报文和SYN报文之间，不会有其他报文需要发送，故而可以合二为一，可以直接发送一个SYN+ACK报文。所以，在建立连接时，只需要三次握手即可。

问题2：为什么连接建立的时候是三次握手，可以改成两次握手吗？

三次握手完成两个重要的功能：一是双方都做好发送数据的准备工作，而且双方都知道对方已准备好；二是双方完成初始SN序列号的协商，双方的SN序列号在握手过程中被发送和确认。

如果把三次握手改成两次握手，可能发生死锁。两次握手的话，缺失了Client的二次确认ACK帧，假想的TCP建立的连接时二次挥手，可以如下图所示：

在假想的TCP建立的连接时二次握手过程中，Client发送Server发送一个SYN请求帧，Server收到后发送了确认应答SYN+ACK帧。按照两次握手的协定，Server认为连接已经成功地建立了，可以开始发送数据帧。这个过程中，如果确认应答SYN+ACK帧在传输中被丢失，Client没有收到，Client将不知道Server是否已准备好，也不知道Server的SN序列号，Client认为连接还未建立成功，将忽略Server发来的任何数据分组，会一直等待Server的SYN+ACK确认应答帧。而Server在发出的数据帧后，一直没有收到对应的ACK确认后就会产生超时，重复发送同样的数据帧。这样就形成了死锁。

问题3：为什么主动断开方在TIME-WAIT状态必须等待2MSL的时间？

原因之一：主动断开方等待2MSL的时间，是为了确保两端都能最终关闭。假设网络是不可靠的，被动断开方发送FIN+ACK报文后，其主动方的ACK响应报文有可能丢失，这时候的被动断开方处于LAST-ACK状态的，由于收不到ACK确认被动方一直不能正常的进入CLOSED状态。在这种场景下，被动断开方会超时重传FIN+ACK断开响应报文，如果主动断开方在2MSL时间内，收到这个重传的FIN+ACK报文，会重传一次ACK报文，后再一次重新启动2MSL计时等待，这样，就能确保被动断开方能收到ACK报文，从而能确保被动方顺利进入到CLOSED状态。只有这样，双方都能够确保关闭。反过来说，如果主动断开方在发送完ACK响应报文后，不是进入TIME_WAIT状态去等待2MSL时间，而是立即释放连接，则将无法收到被动方重传的FIN+ACK报文，所以不会再发送一次ACK确认报文，此时处于LAST-ACK状态的被动断开方，无法正常进入到CLOSED状态。

原因之二：防止“旧连接的已失效的数据报文”出现在新连接中。主动断开方在发送完最后一个ACK报文后，再经过2MSL，才能最终关闭和释放端口，这就意味着，相同端口的新TCP新连接，需要在2MSL的时间之后，才能够正常的建立。2MSL这段时间内，旧连接所产生的所有数据报文，都已经从网络中消失了，从而，确保了下一个新的连接中不会出现这种旧连接请求报文。

问题4：如果已经建立了连接，但是Client突然出现故障怎么办？

TCP还设有一个保活计时器，Client端如果出现故障，Server端不能一直等下去，这样会浪费系统资源。每收到一次Client客户端的数据帧后，Server端都的保活计时器会复位。计时器的超时时间通常是设置为2小时，若2小时还没有收到Client端的任何数据帧，Server端就会发送一个探测报文段，以后每隔75秒钟发送一次。若一连发送10个探测报文仍然没反应，Server端就认为Client端出了故障，接着就关闭连接。如果觉得保活计时器的两个多小时的间隔太长，可以自行调整TCP连接的保活参数。

转载：一文讲透TCP/IP协议 | 图解+秒懂+史上最全-CSDN博客

bendandawugui

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
以太网基础——TCP/IP协议

TCP/IP协议包含了一系列的协议，也叫做TCP/IP协议族（TCP/IP Protocal Suite，或者TCP/IP Protocols），简称TCP/IP，TCP/IP协议族提供了点对点的连接机制，并且将传输数据帧的封装，寻址，传输，路由以及接收方式，都予以标准化。
复制链接

扫一扫