通讯问题排查步骤

最新推荐文章于 2022-06-07 15:24:06 发布

scwenlm

最新推荐文章于 2022-06-07 15:24:06 发布

阅读量281

点赞数

分类专栏： TCP/IP

本文链接：https://blog.csdn.net/u012835418/article/details/53942125

版权

TCP/IP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

症状描述：

图1

图2

图3

排查思路：

netstat 获取的发送队列数据来源于对应socket建立时内核结构体struct sock的成员sk_wmem_queued，导致netstat中发送队列数据值高的原因有如下几个可能：

1、网络传输质量差，丢包情况严重，从而导致大量数据包不能及时清理需要重传。

从系统自身统计和抓包的情况来看无丢包情况，故可暂时排除，但不排除在高TPS时网络设备不稳定。

2、带宽原因，按一笔报文500字节，TPS=1000计算，带宽也就500-600k，未达到2M，理论上不会，但有可能造成此症状。

3、报文虽然已通过网卡发送出去但因为没有及时收到对方返回的ACK响应故仍保留在发送队列（流动窗口）中。目前系统默认的响应ACK间隔为200毫秒（通过no –o fasttimo命令可见），对CUPS这种单工线路因为银联端的响应报文是走另一条线路返回，所以ACK应答无法跟包快速返回，只能在达到200毫秒或两个MSS后才应答，故在高TPS时会在一定程度上造成我方send-q值高。

对这种可能仅需关闭服务端的ack延时响应再观察高tps时客户机上对应socket的发送队列即可。目前在测试环境测试情况来看当将接收端的ack应答设为实时应答时，发送端的发送队列值基本保持为0（见测试案例二：测试报文大小168字节，TPS=2000）。

4、报文因两端的发送和接收空间设置不一致导致

5、报文因发送策略或网卡设置原因未实时发送出去。具体依据网卡是否支持offload特性（即TCP分段工作是由系统内核完成还是网卡完成）可分两类情况来分析。

l 由系统内核进行TCP分段后再发至网卡。应用程序调用系统send函数通过Nagle、Cork、NoDelay等策略将数据组包发至网卡，网卡通过中断机制尽可能以接近MTU的大小将数据发送出去。当TPS很高时因MTU较小（几笔报文即能达到MTU）故不大会导致netstat发送队列的值太高。且此时tcpdump抓取的包大小不会超过MTU的大小(一般是1500字节)