1. 运输层协议概述
1.1 运输层功能
从通信和信息处理的角度看,运输层向它上面的应用层提供通信服务,它属于面向通信部分的最高层,同时也是用户功能中的最低层。
从运输层的角度看,通信的真正端点并不是主机而是主机中的进程。
运输层有一个很重要的功能——复(multiplexing)和分用(demultiplexing)。这里的“复用”是指在发送方不同的应用进程都可以使用同一个运输层协议传送数据(当然需要加上适当的首部),而“分用”是指接收方的运输层在剥去报文的首部后能够把这些数据正确交付目的应用进程。
1.2 运输层的两个主要协议
TCP/IP运输层的两个主要协议都是互联网的正式标准,即:
(1) 用户数据报协议 UDP (User Datagram Protocol) [RFC 768]
(2) 传输控制协议 TCP (Transmission Control Protocol) [RFC 793]
1.3 端口号
互联网上的计算机通信是釆用客户-服务器方式。客户在发起通信请求时,必须先知道对方服务器的IP地址和端口号。因此运输层的端口号分为下面的两大类。
- (1)服务器端使用的端口号 这里又分为两类,最重要的一类叫做熟知端口号(wellknown port number)或系统端口号,数值为0〜1023。
另一类叫做登记端口号 - ( 2 )客户端使用的端口号 数值为4 9 1 5 2 〜 6 5 5 3 5。由于这类端口号仅在客户进程运行时才动态选择,因此又叫做短暂端口号气这类端口号留给客户进程选择暂时使用。当服务器进程收到客户进程的报文时,就知道了客户进程所使用的端口号,因而可以把数据发送给客户进程。通信结束后,刚才己使用过的客户端口号就不复存在,这个端口号就可以供其他
客户进程使用。
2. 用户数据报协议UDP
2.1 特点
- (1) UDP是无连接的,即发送数据之前不需要建立连接(当然,发送数据结束时也没有连接可释放),因此减少了开销和发送数据之前的时延。
- (2) UDP使用尽最大努力交付,即不保证可靠交付,因此主机不需要维持复杂的连接状态表(这里面有许多参数)。
- (3) UDP是面向报文的。发送方的UDP对应用程序交下来的报文,在添加首部后就向下交付IP层。UDP对应用层交下来的报文,既不合并,也不拆分,而是保留这些报文的边界。这就是说,应用层交给UDP多长的报文,UDP就照样发送,即一次发送一个报文。在接收方的UDP,对IP层交上来的UDP用户数据报,在去除首部后就原封不动地交付上层的应用进程。也就是说,UDP 一次交付一个完整的报文。因此,应用程序必须选择合适大小的报文。若报文太长,UDP把它交给IP层后,IP层在传送时可能要进行分片,这会降低I P层的效率。反之,若报文太短,UDP把它交给IP层后,会使IP数据报的首部的相对长度太大,这也降低了 IP层的效率。
- (4) UDP没有拥塞控制,因此网络出现的拥塞不会使源主机的发送速率降低。这对某些
实时应用是很重要的。很多的实时应用(如IP电话、实时视频会议等)要求源主机以恒定
的速率发送数据,并且允许在网络发生拥塞时丢失一些数据,但却不允许数据有太大的时
延。UDP正好适合这种要求。 - (5) UDP支持一对一x 一对多、多对一和多对多的交互通信。
- (6) UDP的首部开销小,只有8个字节,比TCP的20个字节的首部要短。
2.2 UDP的首部格式
用户数据报UDP有两个字段:数据字段和首部字段。首部字段很简单,只有8个字节,由四个字段组成,每个字段的长度都是两个字节。各字段意义如下:
(1) 源端口 源端口号。在需要对方回信时选用。不需要时可用全0。
(2) 目的端口 目的端口号。这在终点交付报文时必须使用。
(3) 长度 UDP用户数据报的长度,其最小值是8 (仅有首部)。
(4) 检验和 检测UDP用户数据报在传输中是否有错。有错就丢弃。
UDP用户数据报首部中检验和的计算方法有些特殊。在计算检验和时,要在UDP用户数据报之前增加1 2个字节的伪首部。所谓“伪首部”是因为这种伪首部并不是UDP用户数据报真正的首部。只是在计算检验和时,临时添加在UDP用户数据报前面,得到一个临时的UDP用户数据报。检验和就是按照这个临时的UDP用户数据报来计算的。
如果接收方UDP发现收到的报文中的目的端口号不正确(即不存在对应于该端口号的
应用进程),就丢弃该报文,并由网际控制报文协议ICMP发送“端口不可达”差错报文给
发送方。
请注意,虽然在UDP之间的通信要用到其端口号,但由于UDP的通信是无连接的,因此不需要使用套接字(TCP之间的通信必须要在两个套接字之间建立连接)。
3. 传输控制协议TCP
3.1 TCP最主要的特点
- (1) TCP是面向连接的运输层协议。这就是说,应用程序在使用TCP协议之前,必须先建立TCP连接。在传送数据完毕后,必须释放己经建立的TCP连接。也就是说,应用进程之间的通信好像在“打电话”:通话前要先拨号建立连接,通话结束后要挂机释放连接。
- (2) 每一条TCP连接只能有两个端点(endpoint),每一条TCP连接只能是点对点的(一
对一)。 - (3) TCP提供可靠交付的服务。通过TCP连接传送的数据,无差错、不丢失、不重复,并且按序到达。
- (4) TCP提供全双工通信。TCP允许通信双方的应用进程在任何时候都能发送数据。TCP连接的两端都设有发送缓存和接收缓存,用来临时存放双向通信的数据。在发送时,应用程序在把数据传送给TCP的缓存后,就可以做自己的事,而TCP在合适的时候把数据发送出去。在接收时,TCP把收到的数据放入缓存,上层的应用进程在合适的时候读取缓存中的数据。
- (5) 面向字节流。TCP中的“流”(stream)指的是流入到进程或从进程流出的字节序列。“面向字节流”的含义是:虽然应用程序和TCP的交互是一次一个数据块(大小不等),但TCP把应用程序交下来的数据仅仅看成是一连串的无结构的字节流。TCP并不知道所传送的字节流的含义。TCP不保证接收方应用程序所收到的数据块和发送方应用程序所发出的数据块具有对应大小的关系(例如,发送方应用程序交给发送方的TCP共 1 0个数据块,但接收方的TCP可能只用了 4个数据块就把收到的字节流交付上层的应用程序)。但接收方应用程序收到的字节流必须和发送方应用程序发出的字节流完全一样。当然,接收方的应用程序必须有能力识别收到的字节流,把它还原成有意义的应用层数据。
- TCP连接就是由协议软件所提供的一种抽象。虽然有时为了方便,我们也可以说,在一个应用进程和另一个应用进程之间建立了一条TCP连接,但一定要记住 TCP连接的端点是个很抽象的套接字,即( IP地址:端口号)。也还应记住:同一个IP地址可以有多个不同的TCP连接,而同一个端口号也可以出现在多个不同的TCP连接中。
3.2 可靠传输的工作原理
理想的传输条件有以下两个特点:
(1) 传输信道不产生差错。
(2) 不管发送方以多快的速度发送数据,接收方总是来得及处理收到的数据。
在这样的理想传输条件下,不需要采取任何措施就能够实现可靠传输。
3.2.1 停止等待协议
- 1.无差错情况:
A发送分组M1,发完就暂停发送,等待B的确认。B收到了 就向A发送确认。A在收到了对M1的确认后,就再发送下一个分组M2。同样,在收到B对M2的确认后,再发送M3。 - 2.出现差错:
B接收时检测出了差错,就丢弃M1其他什么也不做(不通知A收到有差错的分组)。也可能是M1在传输过程中丢失了,这时B当然什么都不知道。在这两种情况下,B都不会发送任何信息。可靠传输协议是这样设计的:A只要超过了一段时间仍然没有收到确认,就认为刚才发送的分组丢失了,因而重传前面发送过的分组。这就叫做超时重传。要实现超时重传,就要在每发送完一个分组时设置一个超时计时器。如果在超时计时器到期之前收到了对方的确认,就撤销己设置的
超时计时器。- 注意点:
- 第一,A在发送完一个分组后,必须暂时保留已发送的分组的副本(在发生超时重传时使用)。只有在收到相应的确认后才能清除暂时保留的分组副本。
- 第二,分组和确认分组都必须进行编号这样才能明确是哪一个发送出去的分组收到了确认,而哪一个分组还没有收到确认。
- 第三,超时计时器设置的重传时间应当比数据在分组传输的平均往返时间更长一些。重传时间应设定为比平均往返时间更长一些。显然,如果重传时间设定得很长,那么通信的效率就会很低。但如果重传时间设定得太短,以致产生不必要的重传,就浪费了网络资源。
- 注意点:
-
3.确认丢失和确认迟到
B所发送的对M1的确认丢失了。A在设定的超时重传时间内没有收到确认,并无法知道是自己发送的分组出错、丢失,或者是B发送的确认丢失了。因此A在超时计时器到期后就要重传现在应注意 B的动作。假定B又收到了重传的分组M1这时应采取两个行动。
第一,丢弃这个重复的分组M1不向上层交付。
第二,向A发送确认。对重复的确认的处理很简单:收下后就丢弃。
使用上述的确认和重传机制,我们就可以在不可靠的传输网络上实现可靠的通信。
像上述的这种可靠传输协议常称为自动重传请求ARQ (Automatic Repeat reQuest)。意思是重传的请求是自动进行的。接收方不需要请求发送方重传某个出错的分组。
为了提高传输效率,发送方可以不使用低效率的停止等待协议,而是采用流水线传输。流水线传输就是发送方可连续发送多个分组,不必每发完一个分组就停顿下来等待对方的确认。这样可使信道上一直有数据不间断地在传送。显然,这种传输方式可以获得很高的信道利用率。
3.2.2 连续ARQ(自动重传请求)协议
连续ARQ协议规定,发送方每收到一个确认,就把发送窗口向前滑动一个分组的位置。图5 - 1 3 ( b)表示发送方收到了对第 1个分组的确认,于是把发送窗口向前移动一个分组的位置。如果原来己经发送了前5个分组,那么现在就可以发送窗口内的第6个分组了。
接收方一般都是采用累积确认的方式。这就是说,接收方不必对收到的分组逐个发送确认,而是在收到几个分组后,对按序到达的最后一个分组发送确认,这就表示:到这个分组为止的所有分组都己正确收到了。
累积确认有优点也有缺点。优点是:容易实现,即使确认丢失也不必重传。但缺点是不能向发送方反映出接收方己经正确收到的所有分组的信息。
例 如 , 如 果 发 送 方 发 送 了 前 5 个 分 组 , 而 中 间 的 第 3 个 分 组 丢 失 了 。 这 时 接 收 方只能对前两个分组发出确认。发送方无法知道后面三个分组的下落,而只好把后面的三个分组都再重传一次。这就叫做G o - b a c k - N (回退N) ,表示需要再退回来重传己发送过的N个分组。可见当通信线路质量不好时,连续ARQ协议会带来负面的影响。
3.3 TCP报文段的首部格式(具体含义请参考教材)
TCP最初只规定了一种选项,即最大报文段长度MSS (Maximum Segment Size) [RFC879]。请注意MSS这个名词的含义。MSS是每一个TCP报文段中的数据字段的最大长度。数据字段加上TCP首部才等于整个的TCP报文段。所以MSS并不是整个TCP报文段的最大长度,而是“TCP报文段长度减去TCP首部长度”。
3.4 TCP可靠传输的实现
我们首先介绍以字节为单位的滑动窗口。为了讲述可靠传输原理的方便,我们假定数据传输只在一个方向进行,即A发送数据,B给出确认。这样的好处是使讨论限于两个窗口,即发送方A的发送窗口和接收方B的接收窗口。如果再考虑B也向A发送数据,那么还要增加A的接收窗口和B的发送窗口,这对讲述可靠传输的原理并没有多少帮助,反而会使问题更加繁琐。
3.4.1 以字节为单位的滑动窗口
TCP的滑动窗口是以字节为单位的。为了便于说明滑动窗口的工作原理,我们故意把后面图中的字节编号都取得很小。现假定A收到了 B发来的确认报文段,其中窗口是20字节,而确认号是31 (这表明B期望收到的下一个序号是31 ,而序号30为止的数据己经收到了)。根据这两个数据,A就构造出自己的发送窗口。
发 送 窗 口 后 沿 的 后 面 部 分 表 示 已 发 送 且 已 收 到 了 确 认 。 这 些数据显然不需要再保留了。而发送窗口前沿的前面部分表示不允许发送的,因为接收方都没有为这部分数据保留临时存放的缓存空间。
发送窗口的位置由窗口前沿和后沿的位置共同确定。发送窗口后沿的变化情况有两种可能,即不动(没有收到新的确认)和前移(收到了新的确认)。发送窗口后沿不可能向后移动,因为不能撤销掉己收到的确认。发送窗口前沿通常是不断向前移动,但也有可能不动。这对应于两种情况:一是没有收到新的确认,对方通知的窗口大小也不变;二是收到了新的确认但对方通知的窗口缩小了,使得发送窗口前沿正好不动。发送窗口前沿也有可能向后收缩。这发生在对方通知的窗口缩小了。但TCP的标准强烈不赞成这样做。因为很可能发送方在收到这个通知以前已经发送了窗口中的许多数据,现在又要收缩窗口,不让发送这些数据,这样就会产生一些错误。
再看一下B的接收窗口。B的接收窗口大小是20。在接收窗口外面,到30号为止的数据是己经发送过确认,并且已经交付主机了。因此在B可以不再保留这些数据。接收窗口内的序号(31〜50)是允许接收的。在图5-16中,B收到了序号为32和33的数据。这些数据没有按序到达,因为序号为31的数据没有收到(也许丢失了,也许滞留在网络中的某处)。请注意,B只能对按序收到的数据中的最高序号给出确认,因此B发送的确认报文段中的确认号仍然是31 (即期望收到的序号),而不能是32或33。
现在假定B收到了序号为31的数据,并把序号为31〜33的数据交付主机,然后B删
除这些数据。接着把接收窗口向前移动3个序号(图5-17),同时给A发送确认,其中窗口值仍为20,但确认号是34。这表明B己经收到了到序号33为止的数据。我们注意到 B还收到了序号为37, 38和40的数据,但这些都没有按序到达,只能先暂存在接收窗口中。A收到B的确认后,就可以把发送窗口向前滑动3个序号,但指针P2不动。可以看出,现在A的可用窗口增大了,可发送的序号范围是42〜53。
A 在 继 续 发 送 完 序 号 4 2 〜 5 3 的 数 据 后 , 指 针 P 2 向 前 移 动 和 P 3 重 合 。 发 送 窗 口 内 的 序号都已用完,但还没有再收到确认(图5 -18 )。由于A的发送窗口己满,可用窗口己减小到零,因此必须停止发送。请注意,存在下面这种可能性,就是发送窗口内所有的数据都己正确到达B, B也早己发出了确认。但不幸的是,所有这些确认都滞留在网络中。在没有收到B的确认时,A不能猜测:“或许B收到了吧!”为了保证可靠传输,A只能认为B还没有收到这些数据。于是,A在经过一段时间后(由超时计时器控制)就重传这部分数据,重新设置超时计时器,直到收到B的确认为止。如果A收到确认号落在发送窗口内,那么A就可以使发送窗口继续向前滑动,并发送新的数据。
3.4.2 超时重传时间的选择
TCP采用了一种自适应算法,它记录一个报文段发出的时间,以及收到相应的确认的时间。这两个时间之差就是报文段的往返时间RTT。TCP保留了 RTT的一个加权平均往返时间RTTS(这又称为平滑的往返时间,S表示Smoothed。因为进行的是加权平均,因此得出的结果更加平滑)。
Kam提出了一个算法:在计算加权平均RTTS时,只要报文段重传了,就不采用其往返时间样本。这样得出的加权平均RTTS和RTO就较准确。
对Kam算法进行修正。方法是:报文段每重传一次,就把超时重传时间RTO增大一些。典型的做法是取新的重传时间为旧的重传时间的2倍。当不再发生报文段的重传时,才根据下面给出的式子计算超时重传时间。实践证明,这种策略较为合理。
超时重传时间RTO (RetransmissionTime-Out)
RTO = RTTS + 4 x RTTD
RTTD 是 RTT的偏差的加权平均值 ,它与RTTS和新的RTT样本之差有关。RFC
6298建议这样计算RTTd。当第一次测量时,RTTD值取为测量到的RTT样本值的一半。在以后的测量中,则使用下式计算加权平均的RTTd:
新的 RTTd = (1 - (3) x (旧的 RTTd) + p x | RTTS - 新的 RTT 样本
这里P是个小于1的系数,它的推荐值是1/4,即0.25。
选择确认SACK
若收到的报文段无差错,只是未按序号,中间还缺少一些序号的数据,那么能否设法只传送缺少的数据而不重传已经正确到达接收方的数据?答案是可以的。选择确认就是一种可行的处理方法。
TCP的接收方在接收对方发送过来的数据字节流的序号不连续,结果就形成了一些不连续的字节块)。可以看出,序号 1 〜 1000收到了,但序号 1001 〜 1500没有收到。接下来的字节流又收到了,可是又缺少了 3001〜3500。再后面从序号4501起又没有收到。也就是说,接收方收到了和前面的字节流不连续的两个字节块。如果这些字节的序号都在接收窗口之内,那么接收方就先收下这些数据,但要把这些信息准确地告诉发送方,使发送方不要再重复发送这些已收到的数据。
在图中用四个指针标记这些边界。请注意,第一个字节块的左边界b = 1501 ,但右边界R1 = 30 0 1而不是30 0 0。这就是说,左边界指出字节块的第一个字节的序号,但右边界减 1才是字节块中的最后一个序号。同理,第二个字节块的左边界L2
= 3501 ,而右边界R2 = 4501。
RFC 2018规定,如果要使用选择确认S AC K,那么在建立TCP连接时,就要在TCP首部的选项中加上“允许SACK”的选项,而双方必须都事先商定好。如果使用选择确认,那么原来首部中的“确认号字段”的用法仍然不变。只是以后在TCP报文段的首部中都增加了 SACK 选项,以便报告收到的不连续的字节块的边界。由于首部选项的长度最多只有40字节,而指明一个边界就要用掉4字节(因为序号有32位,需要使用4个字节表示),因此在选项中最多只能指明4个字节块的边界信息 。这是因 为4个字节块共有8个边界,因而需要用32个字节来描述。另外还需要两个字节。一个字节用来指明是SACK选项,另一个字节是指明这个选项要占用多少字节。如果要报告五个字节块的边界信息,那么至少需要42个字节。这就超过了选项长度的4 0字节的上限。互联网建议标准RFC 2018还对报告这些边界信息的格式都做出了非常明确的规定,这里从略。
然而,SACK文档并没有指明发送方应当怎样响应SACK。因此大多数的实现还是重传所有未被确认的数据块。
3.5 TCP的流量控制
3.5.1 利用滑动窗口实现流量控制
一般说来,我们总是希望数据传输得更快一些。但如果发送方把数据发送得过快,接收方就可能来不及接收,这就会造成数据的丢失。所谓流量控制(flow control)就是让发送方的发送速率不要太快,要让接收方来得及接收。
利用滑动窗口机制可以很方便地在TCP连接上实现对发送方的流量控制。
在连接建立时,B告诉了 A: “我的接收窗口 rwnd = 400”(这里rwnd表示receiver window)。因此,发送方的发送窗口不能超过接收方给出的接收窗口的数值。请注意,TCP的窗口单位是字节,不是报文段。TCP连接建立时的窗口协商过程在
图中没有显示出来。再设每一个报文段为100字节长,而数据报文段序号的初始值设为1(见图中第一个箭头上面的序号seq= 1。图中右边的注释可帮助理解整个过程)。请注意,图中箭头上面大写ACK表示首部中的确认位ACK,小写ack表示确认字段的值。
现在我们考虑一种情况。在图5 - 2 2中,B向A发送了零窗口的报文段后不久,B的接收缓存又有了一些存储空间。于是B向A发送了 rwnd = 40 0的报文段。然而这个报文段在传送过程中丢失了。A—直等待收到B发送的非零窗口的通知,而B也一直等待A发送的数据。如果没有其他措施,这种互相等待的死锁局面将一直延续下去。
为了解决这个问题,TCP为每一个连接设有一个持续计时器(persistence timer)。只要TCP连接的一方收到对方的零窗口通知,就启动持续计时器。若持续计时器设置的时间到期,就发送一个零窗口探测报文段(仅携带 1字节的数据)’ 而对方就在确认这个探测报文段时给出了现在的窗口值。如果窗口仍然是零,那么收到这个报文段的一方就重新设置持续计时器。如果窗口不是零,那么死锁的僵局就可以打破了。
3.5.2 TCP的传输效率
前面已经讲过,应用进程把数据传送到TCP的发送缓存后,剩下的发送任务就由TCP来控制了。可以用不同的机制来控制TCP报文段的发送时机。例如,第一种机制是TCP维持一个变量,它等于最大报文段长度MSS。只要缓存中存放的数据达到MSS字节时,就组装成一个TCP报文段发送出去。第二种机制是由发送方的应用进程指明要求发送报文段,即TCP支持的推送(push)操作。第三种机制是发送方的一个计时器期限到了,这时就把当前己有的缓存数据装入报文段(但长度不能超过MSS)发送出去。
但是,如何控制TCP发送报文段的时机仍然是一个较为复杂的问题。
例如,一个交互式用户使用一条TELNET连接(运输层为TCP协议)。假设用户只发1个字符,加上20字节的首部后,得到21字节长的TCP报文段。再加上20字节的IP首部,形成41字节长的IP数据报。在接收方TCP立即发出确认,构成的数据报是40字节长(假定没有数据发送)。若用户要求远地主机回送这一字符,则又要发回41字节长的IP数据报和40字节长的确认IP数据报。这样,用户仅发1个字符时,线路上就需传送总长度为162字节共4个报文段。当线路带宽并不富裕时,这种传送方法的效率的确不高。因此应适当推迟发回确认报文,并尽量使用捎带确认的方法。
在TCP的实现中广泛使用Nagle算法。算法如下:若发送应用进程把要发送的数据逐个字节地送到TCP的发送缓存,则发送方就把第一个数据字节先发送出去,把后面到达的数据字节都缓存起来。当发送方收到对第一个数据字符的确认后,再把发送缓存中的所有数据组装成一个报文段发送出去,同时继续对随后到达的数据进行缓存。只有在收到对前一个报文段的确认后才继续发送下一个报文段。当数据到达较快而网络速率较慢时,用这样的方法可明显地减少所用的网络带宽。Nagle算法还规定,当到达的数据己达到发送窗口大小的一半或己达到报文段的最大长度时,就立即发送一个报文段。这样做,就可以有效地提高网络的吞吐量。
另一个问题叫做糊涂窗口综合征(silly window syndrome)[RFC 813],有时也会使TCP的性能变坏。设想一种情况:TCP接收方的缓存己满,而交互式的应用进程一次只从接收缓存中读取 1个字节(这样就使接收缓存空间仅腾出 1个字节),然后向发送方发送确认,并把窗口设置为 1个字节(但发送的数据报是4 0字节长)。接着,发送方又发来 1个字节的数据(请注意,发送方发送的I P数据报是4 1字节长)。接收方发回确认,仍然将窗口设置为1个字节。这样进行下去,使网络的效率很低。
要解决这个问题,可以让接收方等待一段时间,使得或者接收缓存己有足够空间容纳一个最长的报文段,或者等到接收缓存已有一半空闲的空间。只要出现这两种情况之一,接收方就发出确认报文,并向发送方通知当前的窗口大小。此外,发送方也不要发送太小的报文段,而是把数据积累成足够大的报文段,或达到接收方缓存的空间的一半大小。
上述两种方法可配合使用。使得在发送方不发送很小的报文段的同时,接收方也不要在缓存刚刚有了一点小的空间就急忙把这个很小的窗口大小信息通知给发送方。
3.6 TCP的拥塞控制
3.6.1 拥塞控制的一般原理
在计算机网络中的链路容量(即带宽)、交换结点中的缓存和处理机等,都是网络的资源。在某段时间,若对网络中某一资源的需求超过了该资源所能提供的可用部分,网络的性能就要变坏。这种情况就叫做拥塞(congestion)。可以把出现网络拥塞的条件写成如下的关系式:
对资源的需求 > 可用资源
所谓拥塞控制就是防止过多的数据注入到网络中,这样可以使网络中的路由器或链路不致过载。拥塞控制所要做的都有一个前提,就是网络能够承受现有的网络负荷。拥塞控制是一个全局性的过程,涉及到所有的主机、所有的路由器,以及与降低网络传输性能有关的所有因素。但TCP连接的端点只要迟迟不能收到对方的确认信息,就猜想在当前网络中的某处很可能发生了拥塞,但这时却无法知道拥塞到底发生在网络的何处,也无法知道发生拥塞的具体原因。
由于计算机网络是一个很复杂的系统,因此可以从控制理论的角度来看拥塞控制这个问题。这样,从大的方面看,可以分为开环控制和闭环控制两种方法。
- 开环控制就是在设计网络时事先将有关发生拥塞的因素考虑周到,力求网络在工作时不产生拥塞。但一旦整个系统运行起来,就不再中途进行改正了。
- 闭环控制是基于反馈环路的概念,主要有以下几种措施:
(1) 监测网络系统以便检测到拥塞在何时、何处发生。
(2) 把拥塞发生的信息传送到可采取行动的地方。
(3) 调整网络系统的运行以解决出现的问题。
有很多的方法可用来监测网络的拥塞。主要的一些指标是:由于缺少缓存空间而被丢弃的分组的百分数、平均队列长度、超时重传的分组数、平均分组时延、分组时延的标准差,等等。上述这些指标的上升都标志着拥塞的增长。
一般在监测到拥塞发生时,要将拥塞发生的信息传送到产生分组的源站。当然,通知拥塞发生的分组同样会使网络更加拥塞。
另一种方法是在路由器转发的分组中保留一个比特或字段,用该比特或字段的值表示网络没有拥塞或产生了拥塞。也可以由一些主机或路由器周期性地发出探测分组,以询问拥塞是否发生。
此外,过于频繁地采取行动以缓和网络的拥塞,会使系统产生不稳定的振荡。但过于迟缓地采取行动又不具有任何实用价值。因此,要采用某种折中的方法。但选择正确的时间常数是相当困难的。
3.6.2 TCP的拥塞控制方法
TCP进行拥塞控制的算法有四种,即 慢开始(slow-start)、拥塞避免(congestion avoidance)、快重传(fast retransmit)和快恢复(fast recovery)(见2009年9月公布的草案标准RFC 5681)下面就介绍这些算法的原理。为了集中精力讨论拥塞控制,我们假定:
(1) 数据是单方向传送的,对方只传送确认报文。
(2) 接收方总是有足够大的缓存空间,因而发送窗口的大小由网络的拥塞程度来决定。
下面讨论的拥塞控制也叫做基于窗口的拥塞控制。为此,发送方维持一个叫做拥塞窗口 cwnd (congestion window)的状态变量。拥塞窗口的大小取决于网络的拥塞程度,并且动态地在变化。发送方让自己的发送窗口等于拥塞窗口。
慢开始:慢开始算法的思路是这样的:当主机开始发送数据时,由于并不清楚网络的负荷情况,所以如果立即把大量数据字节注入到网络,那么就有可能引起网络发生拥塞。经验证明,较好的方法是先探测一下,即由小到大逐渐增大发送窗口,也就是说,由小到大逐渐增大拥塞窗口数值。
慢开始规定,在每收到一个对新的报文段的确认后,可以把拥塞窗口增加最多一个SMSS的数值。更具体些,就是拥塞窗口 cwnd
每次的增加量=min (N,SMSS) 其中N是原先未被确认的、但现在被刚收到的确认报文段所确认的字节数。不难看出,当N< SMSS时,拥塞窗口每次的增加量要小于SMSS。用这样的方法逐步增大发送方的拥塞窗口 cwnd,可以使分组注入到网络的速率更加合理。使用慢开始算法后,每经过一个传输轮次(transmission round),拥塞窗口 cwnd就加倍。
传输轮次。一个传输轮次所经历的时间其实就是往返时间RTT (请注意,RTT并非是恒定的数值)。使用“传输轮次”是更加强调:把拥塞窗口 cwnd所允许发送的报文段都连续发送出去,并收到了对己发送的最后一个字节的确认。
慢开始的“慢”并不是指cwnd的增长速率慢,而是指在TCP开始发
送报文段时先设置cwnd=1。
当cwnd < ssthresh时,使用上述的慢开始算法。
当cwnd > ssthresh时,停止使用慢开始算法而改用拥塞避免算法。
当cwnd = ssthresh时,既可使用慢开始算法,也可使用拥塞避免算法。
拥塞避免:拥塞避免算法的思路是让拥塞窗口 cwnd缓慢地增大,即每经过一个往返时间RTT就把发送方的拥塞窗口cwnd加1,而不是像慢开始阶段那样加倍增长。因此在拥塞避免阶段就有“加法增大” AI (AdditiveIncrease)的特点。这表明在拥塞避免阶段,拥塞窗口 cwnd按线性规律缓慢增长,比慢开始算法的拥塞窗口增长速率缓慢得多。
但请注意,“拥塞避免”并非完全能够避免了拥塞。“拥塞避免”是说把拥塞窗口控制为按线性规律增长,使网络比较不容易出现拥塞。
快重传:采用快重传算法可以让发送方尽早知道发生了个别报文段的丟失。快重传算法首先要求接收方不要等待自己发送数据时才进行捎带确认,而是要立即发送确认,即使收到了失序的报文段也要立即发出对己收到的报文段的重复确认。
快重传算法规定,发送方只要一连收到3个重复确认,就知道接收方确实没 有收到报文段,
因而应当立即进行重传(即“快重传”),这样就不会出现超时,发送方也不就会误认为出现了网络拥塞。使用快重传可以使整个网络的吞吐量提高约20%。
快恢复:在图中的点4,发送方知道现在只是丢失了个别的报文段。于是不启动慢开始,而是执行快恢复算法。这时,发送方调整门限值ssthresh = cwnd/2 = 8 ,同时设置拥 塞窗口 cwnd = ssthresh = 8 (见图中的点5 ),并开始执行拥塞避免算法。
在拥塞避免阶段,拥塞窗口是按照线性规律增大的,这常称为加 法增大AI (AdditiveIncrease)。而一旦出现超时或3个重复的确认,就要把门限值设置为当前拥塞窗口值的一半,并大大减小拥塞窗口的数值。这常称为 “乘法减小”MD(Multiplicative Decrease)。二者合在一起就是所谓的AIMD算法。
在这一节的开始我们就假定了接收方总是有足够大的缓存空间,因而发送窗口的大小由网络的拥塞程度来决定。但实际上接收方的缓存空间总是有限的。接收方根据自己的接收能力设定了接收方窗口 rwnd,并把这个窗口值写入TCP首部中的窗口字段,传送给发送方。因此,接收方窗口又称为通知窗口(advertised window)。因此,从接收方对发送方的流量控制的角度考虑,发送方的发送窗口一定不能超过对方给出的接收方窗口值rwnd。如果把本节所讨论的拥塞控制和接收方对发送方的流量控制一起考虑,那么很显然,发送方的窗口的上限值应当取为接收方窗口 rwnd和拥塞窗口 cwnd这两个变量中较小的一个,也就是说:发送方窗口的上限值=Min [rwnd, cwnd] 。
3.6.3 主动队列管理AQM
假定一个路由器对某些分组的处理时间特别长,那么这就可能使这些分组中的数据部分(即TCP报文段)经过很长时间才能到达终点,结果引起发送方对这些报文段的重传。根据前面所讲的,重传会使TCP连接的发送端认为在网络中发生了拥塞。于是在TCP的发送端就采取了拥塞控制措施,但实际上网络并没有发生拥塞。
网络层的策略对TCP拥塞控制影响最大的就是路由器的分组丢弃策略。在最简单的情况下,路由器的队列通常都是按照“先进先出” FIFO (First In First Out)的规则处理到来的分组。由于队列长度总是有限的,因此当队列己满时,以后再到达的所有分组(如果能够继续排队,这些分组都将排在队列的尾部)将都被丢弃。这就叫做尾部丟弃策略(tail-droppolicy)。
路由器的尾部丢弃往往会导致一连串分组的丢失,这就使发送方出现超时重传,使TCP进入拥塞控制的慢开始状态,结果使TCP连接的发送方突然把数据的发送速率降低到很小的数值。更为严重的是,在网络中通常有很多的TCP连接(它们有不同的源点和终点),这些连接中的报文段通常是复用在网络层的IP数据报中传送。在这种情况下,若发生了路由器中的尾部丢弃,就可能会同时影响到很多条TCP连接,结果使这许多TCP连接在同一时间 突然都进入到慢开始状态。这在 TCP的术语中称为全 局同步 (globalsyncronization)。全局同步使得全网的通信量突然下降了很多,而在网络恢复正常后,其通信量又突然增大很多。
为了避免发生网络中的全局同步现象,在1998年提出了主动队列管理AQM (Active Queue Management)。所谓“主动”就是不要等到路由器的队列长度己经达到最大值时才不得不丢弃后面到达的分组。这样就太被动了。应当在队列长度达到某个值得警惕的数值时(即当网络拥塞有了某些拥塞征兆时),就主动丢弃到达的分组。这样就提醒了发送方放慢发送的速率,因而有可能使网络拥塞的程度减轻,甚至不出现网络拥塞。AQM可以有不同实现方法,其中曾流行多年的就是随机早期检测RED (Random Early Detection)。
实现RED时需要使路由器维持两个参数,即队列长度最小门限和最大门限。当每一个分组到达时,RED就按照规定的算法先计算当前的平均队列长度。
(1) 若平均队列长度小于最小门限,则把新到达的分组放入队列进行排队。
(2) 若平均队列长度超过最大门限,则把新到达的分组丢弃。
(3) 若平均队列长度在最小门限和最大门限之间,则按照某一丢弃概率把新到达的分组丢弃(这就体现了丢弃分组的随机性)。
3.7 TCP的运输连接管理
TCP是面向连接的协议。运输连接是用来传送TCP报文的。TCP运输连接的建立和释放是每一次面向连接的通信中必不可少的过程。因此,运输连接就有三个阶段,即:连接建立、数据传送和连接释放。运输连接的管理就是使运输连接的建立和释放都能正常地进行。
3.7.1 TCP的连接建立(三次握手)
假定主机A运行的是TCP客户程序,而B运行TCP服务器程序。最初两端的TCP进程都处于CLOSED (关闭)状态。图中在主机下面的方框分别是TCP进程所处的状态。请注意,在本例中 A主动打开连接,而B被动打开连接。
- 一开始,B的TCP服务器进程先创建传输控制块TCB,准备接受客户进程的连接请求。然后服务器进程就处于LISTEN (收听)状态,等待客户的连接请求。如有,即作出响应。
- A的TCP客户进程也是首先创建传输控制模块TCB。然后,在打算建立TCP连接时,向B发出连接请求报文段,这时首部中的同步位SYN = 1,同时选择一个初始序号seq =x。TCP规定,SYN报文段(即SYN =1的报文段)不能携带数据,但要消耗掉一个序号。这时,TCP客户进程进入SYN-SENT (同步己发送)状态。
- B收到连接请求报文段后,如同意建立连接,则向A发送确认。在确认报文段中应把SYN位和ACK位都置1,确认号是ack = x + 1,同时也为自己选择一个初始序号seq = y。请注意,这个报文段也不能携带数据,但同样要消耗掉一个序号。这时TCP服务器进程A进入到 SYN-RCVD (同步收到)状态。
- TCP客户进程收到B的确认后,还要向B给出确认。确认报文段的ACK置 1 , 确认号ack = y + 1,而自己的序号seq = x + 1。TCP的标准规定,ACK报文段可以携带数据。但如果不携带数据则不消耗序号,在这种情况下,下一个数据报文段的序号仍是seq = x+l。这时,TCP连接已经建立,A进入ESTABLISHED (己建立连接)状态。
为什么A 最后还要发送一次确认呢?这主要是为了防止已失效的连接请求报文段突然又传送到了 B,因而产生错误。
3.7.2 TCP的连接释放(四次握手)
数据传输结束后,通信的双方都可释放连接。现在A和B都处于ESTABLISHED状态。A的应用进程先向其TCP发出连接释放报文段,并停止再发送数据,主动关闭
TCP连接。
- A把连接释放报文段首部的终止控制位FIN置 1 , 其序号 seq = u, 它等于前面己传送过的数据的最后一个字节的序号加1。这时A进入FIN-WAIT-1 ( 终止等待 1 ) 状
态,等待B的确认。请注意,TCP规定,FIN报文段即使不携带数据,它也消耗掉一个序号。 - B收到连接释放报文段后即发出确认,确认号是ack = u+1,而这个报文段自己的序号是v ,等于B前面己传送过的数据的最后一个字节的序号加1。然后B就进入CLOS-EWAIT (关闭等待)状态。TCP服务器进程这时应通知高层应用进程,因而从A到B这个方向的连接就释放了,这时的TCP连接处于半关闭(half-dose)状态,即A己经没有数据要发送了,但B若发送数据,A仍要接收。也就是说,从B到A这个方向的连接并未关闭,这个状态可能会持续一段时间。A收到来自B的确认后,就进入FIN-WAIT-2 (终止等待2)状态,等待B发出的连接释放报文段。
- 若B己经没有要向A发送的数据,其应用进程就通知TCP释放连接。这时B发出的连接释放报文段必须使FIN= 1。现假定B的序号为w (在半关闭状态B可能又发送了一些数据)。B还必须重复上次己发送过的确认号ack = u+ 1。这时B就进入LAST-ACK (最后确认)状态,等待A的确认。
- A在收到B的连接释放报文段后,必须对此发出确认。在确认报文段中把ACK置1,
确认号ack = w+l,而自己的序号是seq = u + 1 (根据TCP标准,前面发送过的FIN报文段要消耗一个序号)。然后进入到TIME-WAIT (时间等待)状态。请注意,现在TCP连接还没有释放掉。必须经过时间等待计时器(TIME-WAIT timer)设置的时间2MSL后,A才进入到CLOSED状态。时间MSL叫做最长报文段寿命(Maximum Segment Lifetime), RFC 793建议设为2分钟。但这完全是从工程上来考虑的,对于现在的网络 MSL = 2分钟可能太长了一些。因此TCP允许不同的实现可根据具体情况使用更小的MSL值。因此,从A进入到TIME-WAIT状态后,要经过4分钟才能进入到CLOSED状态,才能开始建立下一个新的连接。当A撤销相应的传输控制块TCB后,就结束了这次的TCP连接。