一、TCP简介
尽管TCP和UDP都使用相同的网络层( IP) TCP却向应用层提供与 UDP完全不同的服务。TCP提供一种面向连接的、可靠的字节流服务。面向连接意味着两个使用 T C P的应用(通常是一个客户和一个服务器)在彼此交换数据之前必须先建立一个TCP连接。
TCP对字节流的内容不作任何解释。TCP不知道传输的数据字节流是二进制数据,还是ASCII字符、EBCDIC字符或者其他类型数据。对字节流的解释由 TCP连接双方的应用层解释。
TCP的应用协议:Telnet、Rlogin、FTP和SMTP等。
(1)TCP提供的服务
1.应用数据被分割成 TCP认为最适合发送的数据块。这和 UDP完全不同(UDP的报文大小由底层链路一次能传输的数据的大小决定,超过规定大小会分割后多次传输),应用程序产生的数据报长度将保持不变。由 TCP传递给 IP的信息单位称为报文段或段。
2.当TCP发出一个段后,它启动一个定时器,等待目的端确认收到这个报文段。如果不能及时收到一个确认,将重发这个报文段。(这个应该是常识)
3.当TCP收到发自 TCP连接另一端的数据,它将发送一个确认。这个确认不是立即发送,通常将推迟几分之一秒。
4.TCP将保持它首部和数据的检验和。这是一个端到端的检验和,目的是检测数据在传输过程中的任何变化。如果收到段的检验和有差错, TCP将丢弃这个报文段和不确认收到此报文段(希望发端超时并重发)。
5.既然TCP报文段作为 IP数据报来传输,而 IP数据报的到达可能会失序,因此 TCP报文段的到达也可能会失序。如果必要, TCP将对收到的数据进行重新排序,将收到的数据以正确的顺序交给应用层。
6.既然IP数据报会发生重复, TCP的接收端必须丢弃重复的数据。
7.TCP还能提供流量控制。 TCP连接的每一方都有固定大小的缓冲空间。 TCP的接收端只允许另一端发送接收端缓冲区所能接纳的数据。这将防止较快主机致使较慢主机的缓冲区溢出。
(2)TCP 报头结构
序列号
Sequence num:已经发送给对方的数据长度。
Next sequence num:即将发送给对方的数据长度Sequence number + data length(1070+156 = 1226))
Acknowledgement num: 确认接收来自对端设备的数据长度。
标志位:
URG 紧急指针( urgent pointer)。
ACK 确认序号有效。
PSH 接收方应该尽快将这个报文段交给应用层。
RST 重建连接。
SYN 同步序号用来发起一个连接。这个标志和下一个标志将在第 18章介绍。
FIN 发端完成发送任务。
Window size:
TCP的流量控制由window size提供。表明发送方缓冲区的大小。窗口大小是一个 16 bit 字段,因而窗口大小最大为 65535字节。如果这个缓冲满了, 那么数据的接收方会警告发送方在缓冲去清空之前已经不能在收取更多的数据了。这就是所谓的零窗口通告。等到接收端处理准备好再次接收数据,会通告发送端继续发送(目前伯克利协议栈是这样,其他类型的实现也可能没有零窗口通告,直接drop报文)
二、TCP连接的建立与终止
两个进程在使用 TCP交换数据之前,它们之间必须建立一条连接。完成后,要关闭这个连接。本章已经详细介绍了如何使用三次握手来建立连接以及使用4个报文段来关闭连接。一个TCP连接由一个 4元组唯一确定:本地 IP地址、本地端口号、远端 IP地址和远端端口号。
(1)连接过程
1.请求端(通常称为客户)发送一个 SYN段指明客户打算连接的服务器的端口,以及初
始序号(初始序列号(ISN)是客户端随机产生的一个值,确认号是0,在这个例子中为 1415531521)。这个SYN段为报文段1。
2.服务器发回包含服务器的初始序号的 SYN报文段(报文段2)作为应答。同时,将确认
序号设置为客户的 ISN加1以对客户的 SYN报文段进行确认。一个 SYN将占用一个序号。
3.客户必须将确认序号设置为服务器的ISN加1以对服务器的SYN进行确认(报文段3)
上图是建立连接的过程,有兴趣的可以仔细研究一下这一过程中参数的变化。
(2)断开过程
终止一个连接要经过 4次握手,这由 TCP的半关闭( half -close)造成的。既然一个 TCP连接是全双工(即数据在两个方向上能同时传递),因此每个方向必须单独地进行关闭。这原则就是当一方完成它的数据发送任务后就能发送一个 FIN来终止这个方向连接。当一端收到一个 FIN,它必须通知应用层另一端几经终止了那个方向的数据传送。发送FIN通常是应用层进行关闭的结果。
(3)连接超时
大多数伯克利系统将建立一个新连接的最长时间限制为 75秒。并且采用一个定时器。这种定时器用于确定TCP超时。如:当第一次超时时,将建立一个单位500MS的定时器(12个时钟滴答(tick) ,但它可能在之后的 5.5秒~ 6秒内的任意时刻超时。
尽管定时器初始化为 12个时钟滴答,但定时计数器会在设置后的第一个 0-500MS中的任意时刻减1。从那以后,定时计数器大约每隔500MS减1,但在第1个500 MS内是可变的(“大约”是因为在 TCP每隔500MS获得系统控制的瞬间,系统内核可能会优先处理其他中断)。
(4)最大报文段长度
最大报文段长度(MSS)表示 TCP传往另一端的最大块数据的长度。当一个连接建立时,连接的双方都要通告各自的MSS。一般说来,如果没有分段发生, MSS还是越大越好。报文段越大允许每个报文段传送的数据就越多,相对 IP和TCP首部有更高的网络利用率。
观察上面tcp建立连接时的tcp dump,MSS协商为1460,那么在传输数据时,联合tcp header与ip header,最大传输长度(MTU)为1500。
上图Sun发送的报文段不能超过 256字节的数据,因为它收到的 MSS选项值为256。此外,由于 slip知道它外出接口的 MTU长度为 296,即使 sun已经通告它的MSS为1460,但为避免将数据分段,它不会发送超过 256字节数据的报文段。系统允许发送的数据长度小于另一端的 MSS值。
(5)TCP的半关闭
TCP提供了连接的一端在结束它的发送后还能接收来自另一端数据的能力。这就是所谓的半关闭。如果应用程序不调用close而调用shutdown(),且第2个参数值为1,则插口的API支持半关闭。然而,大多数的应用程序通过调用close终止两个方向的连接。
void(*shutdown)(struct sock *sk, int how)
当一端收到一个 FIN,它必须通知应用层另一端已经终止了那个方向的数据传送。发送FIN通常是应用层进行关闭的结果。收到一个 FIN只意味着在这一方向上没有数据流动。一个 TCP连接在收到一个 FIN后仍能发送数据。
(6)TCP的状态变迁
只有当 SYN _ RCVD状态是从 LISTEN状态(正常情况)进入,而不是从 SYN_SENT状态进入时,从 SYN_RCVD回到LISTEN的状态变迁才是有效的(从LISTEN到SYN_SENT的变迁是正确的,但伯克利版的 TCP软件并不支持它)。这意味着如果我们执行被动关闭(进入 LISTEN),收到一个 SYN,发送一个带 ACK的SYN(进入SYN_RCVD),然后收到一个RST,而不是一个ACK,便又回到 LISTEN状态并等待另一个连接请求的到来。
TIME_WAIT状态:
TIME_WAIT状态也称为 2MSL等待状态。每个具体 TCP实现必须选择一个报文段最大生存时间MSL(Maximum Segment Lifetime)。它是任何报文段被丢弃前在网络内的最长时间。等待2MSL时间后,端口会进入closed状态,这是该端口可以被再次使用。
对一个具体实现所给定的 MSL值,处理的原则是:当 TCP执行一个主动关闭,并发回最后一个ACK,该连接必须在 TIME_WAIT状态停留的时间为 2倍的MSL。这样可让 TCP再次发送最后的ACK以防这个ACK丢失(另一端超时并重发最后的 FIN)。
平静时间的概念
如果使用处于 2MSL等待端口的主机出现故障,它会在MSL秒内重新启动,并立即使用故障前仍处于2MSL的插口来建立一个新的连接吗?如果是这样,在故障前从这个连接发出而迟到的报文段会被错误地当作属于重启后新连接的报文段。因此TCP在重启动后的 MSL秒内不能建立任何连接。这就称为平静时间。
(7) 复位报文段
TCP首部中的 RST比特是用于“复位”的。一般说来,无论何时一个报文段发往基准的连接( referenced connection)出现错误, T C P都会发出一个复位报文段(这里提到的“基准的连接”是指由目的 I P地址和目的端口号以及源 I P地址和源端口号指明的连接。)
复位报文的使用场景:
1.到不存在的端口的连接请求。
2.异常终止一个连接。
3.检测半打开连接。(如果一方已经关闭或异常终止连接而另一方却还不知道,我们将这样的 TCP连接称为半打开(Half-Open)的)。
三、TCP的数据流
TCP报文段包含成块数据(如 FTP、电子邮件和 Usenet新闻)和交互数据(如Telnet和Rlogin)。如果按字节计算,则成块数据与交互数据的比例约为 9 0 %和1 0 %。这是因为成块数据的报文段基本上都是满长度( full-sized)的(通常为 512字节的用户数据),而交互数据则小得多(上述研究表明 Telnet和Rlogin分组中通常约 90%左右的用户数据小于 10个字节)。很明显,TCP需要同时处理这两类数据,但使用的处理算法则有所不同。
(1) 交互数据
交互数据总是以小于最大报文段长度的分组发送。在 Rlogin中通常只有一个字节从客户发送到服务器。Telnet允许一次发送一行输入数据,但是目前大多数实现仍然发送一个字节。对于这些小的报文段,接收方使用经受时延的确认方法来判断确认是否可被推迟发送,以便与回送数据一起发送。这样通常会减少报文段的数目,尤其是对于需要回显用户输入字符的Rlogin会话。在较慢的广域网环境中,通常使用 Nagle算法来减少这些小报文段的数目。这个算法限制发送者任何时候只能有一个发送的小报文段未被确认。
经受时延的确认
通常TCP在接收到数据时并不立即发送 ACK;相反,它推迟发送,以便将 ACK与需要沿该方向发送的数据一起发送(有时称这种现象为数据捎带 ACK)。绝大多数实现采用的时延为 200ms,也就是说, TCP将以最大200ms 的时延等待是否有数据一起发送。
(2)成块数据流
没有一种单一的方法可以使用 T C P进行成块数据的交换。这是一个依赖于许多因素的动态处理过程,有些因素我们可以控制(如发送和接收缓存的大小),而另一些我们则没有办法控制(如网络拥塞、与实现有关的特性等)进行成块数据有效传输的最重要的方法是 TCP的滑动窗口协议。
滑动窗口协议
窗口大小是与确认序号相对应的。发送方计算它的可用窗口,该窗口表明多少数据可以立即被发送。当接收方确认数据后,这个滑动窗口不时地向右移动。窗口两个边沿的相对运动增加或减少了窗口的大小。我们使用三个术语来描述窗口左右边沿的运动:
1) 称窗口左边沿向右边沿靠近为窗口合拢。这种现象发生在数据被发送和确认时。
2) 当窗口右边沿向右移动时将允许发送更多的数据,我们称之为窗口张开。这种现象发生在另一端的接收进程读取已经确认的数据并释放了 TCP的接收缓存时。
3) 当右边沿向左移动时,我们称之为窗口收缩。
上图一共展示了11个字节的空间,窗口在4-9字节中(6字节大小,真正的窗口远比这大的多)的使用原则:
1.1-3字节表示已经发送出去的数据。
2.4-6字节表示已经发送,但还未被确认的字节。(如果未受到确认消息,则会重新发送。收到ack消息则张开窗口)。
3.7-9字节表示空闲区域,可被填充为新数据。
4.10-11为不能发送的数据。
PUSH标志
在每一个 TCP例子中,我们都看到了 PUSH标志。发送方使用该标志通知接收方将所收到的数据全部提交给接收进程。这里的数据包括与 PUSH一起传送的数据以及接收方 TCP已经为接收进程收到的其他数据(服务器的 TCP接收到一个设置了PUSH标志的报文段时,它需要立即将这些数据递交给服务器进程而不能等待判断是否还会有额外的数据到达)。
四 、总结
本文简单总结了tcp协议的基本特性和技术细节。本文讲述的信息还远远足以涵盖所有TCP协议的内容。希望读者先从使用tcp开始学习tcp协议的特性,通过wireshark获取tcpdump来进一步研究tcp报头中的信息。