TCP报文头(首部)详解

        本篇文章基于 RFC 9293: Transmission Control Protocol (TCP) 对TCP报头进行讲解,部分内容会与旧版本有些许区别。

        TCP协议传输的数据单元是报文段,一个报文段由TCP首部(报文头)和TCP数据两部分组成,其中TCP首部尤其重要,首部用于控制(新建、断开)连接、流量和拥塞等。TCP首部的固定长度是20B,最大长度是60B,其中可变选项长度最长为40B(4B×10)。

 字段解释

  • 源端口(Source Port):占用 2 Byte,标识发送方应用程序使用的端口号;
  • 目的端口(Destination Port):占用 2 Byte,标识发送方应用程序的目标端口号,也就是接收方应用程序的端口号;【所以为了保证发送方和接收方都能独立进行传输,】
  • 序号(Seq,Sequence Number):占用 4 Byte,范围是[0, 2^32),标识TCP报文段中的第一个字节数据的序列号,用于保证传输数据的可靠性和顺序性。TCP是一个面向字节流的传输控制协议,且支持全双工通信,为了保证传输的可靠性和顺序性,TCP会对数据流中的每个字节数据进行编号,在进行通信时可根据Seq和Ack值来确认对方已发送和已接收的字节数。发送方用Seq字段告知接收方自建立连接以来我方已累计(不包含本报文段数据)已发送了Seq-1个字节数据,本次传输的报文数据第一个字节序列号是Seq,而接收方在成功接收完一段或多段数据后可以根据Seq的大小顺序对数据进行拼接组合,并且用Ack字段告知发送方我方已成功接收了Ack-1个字节数据,期望下次接收的报文段是从Ack序号开始。【为什么都要减1呢?因为TCP成功建立连接后Seq和Ack都会置为1,所以Seq和Ack的起始值都是1。第N次发送数据时的 Seq = Seq初始值1 + 第1次发送的字节长度 + ··· + 第N-1次发送的数据字节长度,也就是第N次发送数据时的 Seq = 第N-1次发送数据时的 Seq + 第N-1次发送的数据字节长度】。请注意,TCP为了保证传输的绝对可靠性和顺序性,虽然在建立、重置或断开连接过程中发送的SYN、RST、FIN报文不会携带应用层数据,但这类报文仍然会消耗序号,每个报文每次消耗1个序号,所以建立、重置或断开连接过程中Seq和Ack跟TCP报文数据长度(Len=0)无关。当Seq到达2^32-1(4GB内容.....)后又会从0重新开始(序号回绕,TCP的发送和接收缓冲区是一个环形队列)。
  • 确认号(Ack,Acknowledgment Number):占用 4 Byte,标识接收方期望收到下一个报文段的起始序号是Ack。只有标志位ACK为1时确认号才有效。接收方在正确接收完数据后需要给发送方返回一个确认应答ACK报文,告知发送方已收到某个报文段,期望下次收到报文段的起始序列号是ack。发送方在收到ACK报文后,会根据Ack值将接收缓冲区中对应的数据释放掉,如果在一定时间内未收到ACK报文,发送方会重传这段报文。(事实上,接收方往往是在成功接收了多条报文段后才返回一条总的ACK报文,这种模式叫累计确认累计应答)。请注意,TCP滑动窗口机制允许发送方一次发送多段报文,这些报文到达顺序可能跟发送时的顺序不一致,但不影响接收方正常接收,接收方接收到报文后,先将报文数据写入接收缓存区,再根据seq进行排序,如果中间某段报文发生丢失,之后的报文虽然会被正常接收,但此时返回给发送方的每一条ACK报文中的ack值都是丢失报文段的第一个字节数据对应的Seq,意思就是期望下次收到丢失的报文,让发送方重传丢失的报文(涉及到重传机制内容,请参考 TCP 核心工作机制)。

  • 数据偏移(Data Offset):占用 4 bit,标识TCP报文段中报文数据的起始位置距离报文段开始位置有多远,也就是TCP的首部长度是多少,单位是32bit(4字节)。从下图可以看到TCP首部长度 Header Length 为 0101,转换成十进制是5,4Byte × 5 = 20 Byte。而TCP首部固定长度是20Byte,可变长度是40 Byte,最长是60 Byte,所以数据偏移值最小是5,最大是15,[0101, 1111]。

  • 保留(Reserved):占用 3 bit预留给未来使用的一组控制位,目前该值设置为0。TCP首部的数据偏移(首部长度)、保留位和标志位公用16 bit,也就是2 byte,其中数据偏移独占4 bit,保留位和标志位一共可分配12 bit,如果我们把保留位Reserved也当成一个预留的或空白的标志位,那么完全可以理解成TCP最多可分配12个标志位,目前(rfc9293版)已明确的标志位共有8个,还有1个处于实验阶段的标志位AE,一共是9个标志位,每个标志位占用1 bit,剩余的3 bit由Reserved占用。
  • 标志位(Flags):也叫控制位,每一个标志位占用 1 bit。目前已有9个标志位,包括AE、CWR、ECE、URG、ACK、PSH、RST、SYN和FIN,值为0或1,用于控制TCP的拥塞、连接的建立、管理和关闭等。
    1. AE(Accurate ECN):处于试验期的标志位。外文资料也比较少,看了半天也不知道是用来干嘛的,暂且搁置吧。
    2. CWR(Congestion Window Reduce):拥塞窗口减半标志,发送端通过降低“cwnd”和“ssthresh”来应对网络拥塞。CWR和ECE都是用来控制网络拥塞的,而CWR是用来响应ECE的,所以在了解CWR作用之前,我们得先搞懂ECE是用来干嘛的。Explicit Congestion Notification,翻译过来就是“显式拥塞通知”,简写ECN。数据报在发送方发出后可能要经过多个路由器才能到达接收方,如果中间某个路由器根据算法结果判断出自身发生了拥塞,就会在报文的IP首部设置CE标志(ECE),接收方在接收到这段报文后,发现IP头设置了CE标志,表明数据发送途中网络有拥塞,得赶紧把这个消息告诉发送方,不然可能要丢包。接收方在后续返回给发送方的每一条ACK报文都会设置ECN-Echo(ECE)为1,用于告知发送方从贵方到我方的网络有拥塞。而发送方在接收到对方返回的ECE报文后,得知网络有拥塞,就会将拥塞窗口“cwnd”减半,并降低慢启动阈值“ssthresh”,之后再发送CWR报文给接收方,接收方收到CWR报文后表明发送方已采取相应措施来应对网络拥塞,随后便不再发送ECE报文。请注意,数据重传时,TCP报头中不会设置CWR标志位。
    3. ECE(ECN-Echo):显示拥塞通知。用于通知对方,从对方到我方的网络有拥塞。如果发送方收到ECN-Echo (ECE) ACK确认应答(即TCP报头中设置了ECN-Echo标志的ACK包),则表明从发送方到接收方的网络拥堵,触发拥塞发生,准备减小拥塞窗口cwnd。
    4. URGUrgent):标识是否为紧急报文,配合紧急指针(urgent pointer)一起使用,值为0或1 。当标志位URG为1时,表明该报文段有紧急数据需要尽快发送(发送端此时不会把报文数据写入到发送缓冲区,而是直接发送给应用层),即使对端窗口大小此时为0系统也要以高优先级发送该段报文,紧急数据会放在TCP报文段数据部分的最前端,紧急指针用于标识紧急数据在TCP报文段数据部分的结束位置,紧急数据之后的字节内容依然是普通数据。
    5. ACKAcknowledgment):标识确认应答是否有效,配合确认号(Ack,Acknowledgment Number)一起使用,值为0或1 。当标志位ACK为1时,确认号Ack才有效。除了最初建立连接时发送的SYN报文段之外,其它情况下发送的报文段ACK都为1。
    6. PSHPush):标识是否立即把报文数据推送给应用层,值为0或1。如果TCP接收方接收到PSH为1的报文段,应尽快把这段报文数据从接收缓冲区中读出并立即推送给应用层,不必等到缓冲区写满后再推送。常用于请求方发送完一个新请求后希望立即得到对端的响应。

    7. RSTReset):标识是否重置连接,值为0或1 。当RST为1时,表明TCP连接发生错误,需要先强制断开连接(直接关闭连接,不需要四次挥手),再重新建立新的连接,称之为复位TCP连接,这种报文也称之为复位报文段
    8. SYNSynchronize):该标志位用于在建立连接时同步Seq和Ack的初始值,仅在建立连接时使用。TCP三次握手中,第一次握手时,客户端先发送“SYN=1,ACK=0”的报文段,表示请求建立,第二次握手时,如果服务端同意建立连接就返回“SYN=1,ACK=1的报文段。我们把含有SYN标志位的报文称为同步报文段
    9. FINFinish):该标志位用于断开/释放连接,仅在断开连接时使用。当通信结束后需要断开连接时,主动要求断开连接的一方会发送“FIN=1,ACK=1”的报文段给对端,告知对端通信已结束希望断开连接,对端接收后会相应地返回“ACK=1”的报文段,至此连接会彻底关闭。我们把含有FIN标志位的报文称为结束报文段

  • 窗口(Window):占用 2 Byte(16bit),表示TCP接收方当前可用的最大接收缓冲区(Receive Buffer)大小,常配合Options字段中的Window Scale一起使用用于实现滑动窗口机制,对流量进行控制(接收方通过Window值告诉发送方我方还有多少接收缓冲区可用于接收数据,发送方会根据Window大小来调整数据发送量,也就是调整发送方的发送窗口大小,使得发送窗口不超过接收方的接收窗口大小,从而避免网络拥塞并确保通信的稳定性。参考TCP 核心工作机制)。注意,Window大小值有时候并不代表当前的实际可用窗口大小,因为Window共占用16位,最大值是2^16-1,也就是64K(65535),在当前的网络高带宽情况下,64K显然已无法满足大部分的网络通信,所以后来就在TCP的Options字段中新增了Window Scale对窗口进行放大,Window Scale代表的是一个向左的位移值(Shift count),最大值是14。二进制数据每增加一位1,其换算指数都会加1,所以实际窗口大小最大允许值应该是 2^(16+14) -1 = 2^30 - 1,长达1Gb。TCP在建立连接时的前两次握手过程中,双方都会用Window Scale来向对端声明我方的窗口放大因子并缓存对端的窗口放大因子,后期通信过程中不再声明,仅发送Window,双方会用对方的Window和Window Scale来计算实际的窗口大小,并根据实际窗口大小调整发送速率(如果窗口为0,发送方会定期进行窗口探测)。用图说话

  • 校验和(Checksum):占用 2 Byte,接收方校验接收的数据是否与发送的数据完全一致,用于保证数据的完整性和准确性Checksum是一个强制字段,发送方必须生成并发送它,接收方必须检查它。数据在传输过程可能会出错,所以TCP发送方在发送数据前会先根据伪首部、报文段首部和报文段数据计算校验和值,并将最终得到的值写入Checksum字段。而接收方在收到此报文段后,会根据伪首部、报文段首部和报文段数据再次计算校验和值,如果结果是0,说明数据一致,否则丢弃数据并报告发送方重传这段数据。

TCP发送方计算校验和过程:

        1.先将TCP报文段首部中的Checksum字段置为0,因为Checksum本身也要参与计算;

        2.将伪首部、TCP报文段首部和TCP报文段数据连在一起并分成若干个16位的位串,看是否是偶数个字节(所有数据是否对齐),如果不是则在右侧填充一个全为0的8位位串(填充段仅用于计算校验和值,不会传输给接收方),将每个16位位串看成一个二进制数;

        3.对这些16位的二进制数进行1的补码和运算(one's complement sum),如果最高位有进位应循环进到最低位,累加的结果再取反码即得到校验和;

        4.将校验写入TCP报文首部的Checksum字段。

TCP接收方检查校验和过程:

        1.接收方将伪首部、TCP报文段首部和TCP报文段数据按发送方同样的方式(不包含发送方的第1步操作)进行1的补码和运算,累加的结果再取反码

        2.校验,如果上步的结果为0,表示传输正确;否则,说明传输有差错。 

  • 紧急指针(Urgent Pointer):占用 2 Byte,也称紧急偏移,用于标识紧急数据在TCP报文段数据部分的结束位置/正的偏移量。只有当标志位URG为1时该参数才有效。紧急数据是放在TCP报文段数据部分的最前端,紧急指针用于标识紧急数据在TCP报文段数据部分的结束位置,紧急数据之后的字节内容依然是普通数据。
  • 选项(Options):占用 0~40 Byte,可选字段,用于传输TCP报文的附加信息,Options所有选项也都包含在校验和中。仅Data Offset > 5 时Options才会出现,size(Options) = (Data Offset - 5)×32,每个option的长度必须是8bit的整倍数(最短1个字节),且Options总长度也必须是32bit(4字节)的整倍数如果某个option的长度不够4字节,那么就用“No-Operation(占用1字节)”来补充位数(都是补高位),缺几个字节就补几个“No-Operation”。请注意,当整个选项列表的结束位置无法与TCP报头尾部对齐时,TCP会在整个选项(all options, not each option)列表的尾部填充“End of Option List”选项综上可知,size包含了补位和填充的数据长度。一个option由Kind、Length和Data三部分组成,其中Length和Data是选填参数,Length表示的是当前这个option的总长度,它包含Kind、Length和Data三者总共占用的位数。

常用option如下表:

KindLengthMeaningReference
0-End of Option ListRFC9293仅用于填充整个选项列表尾部。
1-No-Operation,NOPRFC9293补位选项。
24Maximum Segment Size,MSSRFC9293最大报文段长度,具体限制的是TCP报文段中数据部分的长度。
33Window ScaleRFC7323窗口放大因子
42SACK PermittedRFC2018标识是否支持SACK,只有在建立连接时SYN报段使用。
5NSelective Acknowledgment,SACKRFC2018选择性确认,用于数据重传机制。接收方可通过SACK参数告知发送方我方收到了不连续的数据块(Ack=200,SACK=200-400),发送方可根据此信息检查哪部分数据丢失(对方收到200字节数据,接收到的是200-400段,说明0-199段丢失了)并重传这段数据。
810TimestampsRFC7323时间戳
34variableTCP Fast Open CookieRFC7413

完整的options list请参阅:Transmission Control Protocol (TCP) Parameters/tcp-parameters-1 


参考文章

        RFC 9293: Transmission Control Protocol (TCP) 

        Transmission Control Protocol (TCP) Parameters   TCP所有字段、标志位和参数在这里都能找到!

        RFC 3168: The Addition of Explicit Congestion Notification (ECN) to IP

        draft-ietf-tcpm-accurate-ecn-28 - More Accurate Explicit Congestion Notification (ECN) Feedback in TCP        Accurate ECN

        draft-kuehlewind-tcpm-accurate-ecn-05 - More Accurate ECN Feedback in TCP                 Accurate ECN

        RFC 2018: TCP Selective Acknowledgment Options                                                            Options:SACK

        RFC 2883: An Extension to the Selective Acknowledgement (SACK) Option for TCP         Options:SACK

        RFC 7323: TCP Extensions for High Performance                                                                Optinos:Window Scale、Timestamps

  • 5
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目 录 译者序 前言 第一部分 TCP事务协议 第1章 T/TCP概述 1 1.1 概述 1 1.2 UDP上的客户-服务器 1 1.3 TCP上的客户-服务器 6 1.4 T/TCP上的客户-服务器 12 1.5 测试网络 15 1.6 时间测量程序 15 1.7 应用 17 1.8 历史 19 1.9 实现 20 1.10 小结 21 第2章 T/TCP协议 23 2.1 概述 23 2.2 T/TCP中的新TCP选项 23 2.3 T/TCP实现所需变量 25 2.4 状态变迁图 27 2.5 T/TCP的扩展状态 28 2.6 小结 30 第3章 T/TCP使用举例 31 3.1 概述 31 3.2 客户重新启动 31 3.3 常规的T/TCP事务 33 3.4 服务器收到过时的重复SYN 34 3.5 服务器重启动 35 3.6 请求或应答超出报文段最大长度MSS 36 3.7 向后兼容性 39 3.8 小结 41 第4章 T/TCP协议(续) 43 4.1 概述 43 4.2 客户的端口号和TIME_WAIT状态 43 4.3 设置TIME_WAIT状态的目的 45 4.4 TIME_WAIT状态的截断 48 4.5 利用TAO跳过三次握手 51 4.6 小结 55 第5章 T/TCP协议的实现:插口层 56 5.1 概述 56 5.2 常量 56 5.3 sosend函数 56 5.4 小结 58 第6章 T/TCP的实现:路由表 59 6.1 概述 59 6.2 代码介绍 59 6.3 radix_node_head结构 60 6.4 rtentry结构 61 6.5 rt_metrics结构 61 6.6 in_inithead函数 61 6.7 in_addroute函数 62 6.8 in_matroute函数 63 6.9 in_clsroute函数 63 6.10 in_rtqtimo函数 64 6.11 in_rtqkill函数 66 6.12 小结 69 第7章 T/TCP实现:协议控制块 70 7.1 概述 70 7.2 in_pcbladdr函数 71 7.3 in_pcbconnect函数 71 7.4 小结 72 第8章 T/TCP实现: TCP概要 73 8.1 概述 73 8.2 代码介绍 73 8.3 TCP的protosw结构 74 8.4 TCP控制块 74 8.5 tcp_init函数 75 8.6 tcp_slowtimo函数 75 8.7 小结 76 第9章 T/TCP实现:TCP输出 77 9.1 概述 77 9.2 tcp_output函数 77 9.2.1 新的自动变量 77 9.2.2 增加隐藏的状态标志 77 9.2.3 在SYN_SENT状态不要重传SYN 78 9.2.4 发送器的糊涂窗口避免机制 78 9.2.5 有RST或SYN标志时强制发送报文段 79 9.2.6 发送MSS选项 80 9.2.7 是否发送时间戳选项 80 9.2.8 发送T/TCP的CC选项 80 9.2.9 根据TCP选项调整数据长度 83 9.3 小结 83 第10章 T/TCP实现:TCP函数 84 10.1 概述 84 10.2 tcp_newtcpcb函数 84 10.3 tcp_rtlookup函数 85 10.4 tcp_gettaocache函数 86 10.5 重传超时间隔的计算 86 10.6 tcp_close函数 89 10.7 tcp_msssend函数 90 10.8 tcp_mssrcvd函数 91 10.9 tcp_dooptions函数 96 10.10 tcp_reass函数 98 10.11 小结 99 第11章 T/TCP实现:TCP输入 101 11.1 概述 101 11.2 预处理 103 11.3 首部预测 104 11.4 被动打开的启动 105 11.5 主动打开的启动 108 11.6 PAWS:防止序号重复 114 11.7 ACK处理 115 11.8 完成被动打开和同时打开 115 11.9 ACK处理(续) 116 11.10 FIN处理 118 11.11 小结 119 第12章 T/TCP实现:TCP用户请求 120 12.1 概述 120 12.2 PRU_CONNECT请求 120 12.3 tcp_connect函数 120 12.4 PRU_SEND和PRU_SEND_EOF请求 124 12.5 tcp_usrclosed函数 125 12.6 tcp_sysctl函数 126 12.7 T/TCP的前景 126 12.8 小结 127 第二部分 TCP的其他应用 第13章 HTTP:超文本传送协议 129 13.1 概述 129 13.2 HTTP和HTML概述 130 13.3 HTTP 132 13.3.1 报文类型:请求与响应 132 13.3.2 首部字段 133 13.3.3 响应代码 133 13.3.4 各种报文举例 134 13.3.5 例子:客户程序缓存 135 13.3.6 例子:服务器重定向 136 13.4 一个例子 136 13.5 HTTP的统计资料 138 13.6 性能问题 139 13.7 小结 141 第14章 在HTTP服务器上找到的分组 142 14.1 概述 142 14.2 多个HTTP服务器 144 14.3 客户端SYN的到达间隔时间 145 14.4 RTT的测量 149 14.5 用listen设置入连接队列的容量 150 14.6 客户端的SYN选项 154 14.7 客户端的SYN重传 156 14.8 域名 157 14.9 超时的持续探测 157 14.10 T/TCP路由表大小的模拟 160 14.11 mbuf的交互 162 14.12 TCP的PCB高速缓存和首部预测 163 14.13 小结 165 第15章 NNTP:网络新闻传送协议 166 15.1 概述 166 15.2 NNTP 167 15.3 一个简单的新闻客户 170 15.4 一个复杂的新闻客户 171 15.5 NNTP的统计资料 172 15.6 小结 173 第三部分 Unix域协议 第16章 Unix域协议:概述 175 16.1 概述 175 16.2 用途 176 16.3 性能 177 16.4 编码举例 177 16.5 小结 179 第17章 Unix域协议:实现 180 17.1 概述 180 17.2 代码介绍 180 17.3 Unix domain和protosw结构 181 17.4 Unix域插口地址结构 182 17.5 Unix域协议控制块 183 17.6 uipc_usrreq函数 185 17.7 PRU_ATTACH请求和unp_attach函数 186 17.8 PRU_DETACH请求和unp_detach函数 187 17.9 PRU_BIND请求和unp_bind函数 189 17.10 PRU_CONNECT请求和unp_connect 函数 191 17.11 PRU_CONNECT2请求和unp_connect2 函数 195 17.12 socketpair系统调用 198 17.13 pipe系统调用 202 17.14 PRU_ACCEPT请求 203 17.15 PRU_DISCONNECT请求和 unp_disconnect函数 204 17.16 PRU_SHUTDOWN请求和unp_shutdown 函数 205 17.17 PRU_ABORT请求和unp_drop函数 206 17.18 其他各种请求 207 17.19 小结 209 第18章 Unix域协议:I/O和描述符的传递 210 18.1 概述 210 18.2 PRU_SEND和PRU_RCVD请求 210 18.3 描述符的传递 214 18.4 unp_internalize函数 218 18.5 unp_externalize函数 220 18.6 unp_discard函数 221 18.7 unp_dispose函数 222 18.8 unp_scan函数 222 18.9 unp_gc函数 223 18.10 unp_mark函数 230 18.11 性能(再讨论) 231 18.12 小结 231 附录A 测量网络时间 232 附录B 编写T/TCP应用程序 242 参考文献 246 缩略语 251

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值