tcp retransmission 出现的原因_TCP重传问题的排查思路与实践,有点干货!

点击上方“占小狼的博客”,选择“设为星标”

74fe7e41a494afce27a3bacbb1b451c4.png

1、关于TCP重传

TCP有重传是正常的机制,为了保障数据传输可靠性。只是局域网环境,网络质量有保障,因为网络问题出现重传应该极低;互联网或城域网环境,线路复杂(可以想象下城市地下管网,错综复杂的电线杆等),网络质量不好保障,重传出现概率较高。

TCP有重传,也不一定是网络层面的问题。也可能是接收端不存在,接收端receive buffer满了,应用程序有异常链接未正常关闭等等等。

2、TCP/IP相关

排查网络问题,要掌握TCP/IP原理,真相都在一个一个的数据包里。以下是和TCP重传比较关键的几个参数。

2.1 建立TCP链接时的参数

#syn包重传多少次后放弃,重传间隔是2的n次方(1s,2s,4s..)

net.ipv4.tcp_syn_retries

#syn ack包重传多少次后放弃

net.ipv4.tcp_synack_retries

#syn包队列

net.ipv4.tcp_max_syn_backlog

2.2 TCP重传类型

超时重传

在请求包发出去的时候,开启一个计时器,当计时器达到时间之后,没有收到ACK,则就进行重发请求的操作,一直重发直到达到重发上限次数或者收到ACK。

快速重传

当接收方收到的数据包是不正常的序列号,那么接收方会重复把应该收到的那一条ACK重复发送,这个时候,如果发送方收到连续3条的同一个序列号的ACK,那么就会启动快速重传机制,把这个ACK对应的发送包重新发送一次。具体可以参考: 

693f660b3a0c9f873bf00821c6bcad8d.png

3、常见问题与措施

3.1单台机器或单个应用机器tcp重传

可能是链接的服务器或端口无法访问

排查思路

1、抓1000或者更多个tcp包

# 出现2次以上seq一样的包就是发生了重传

# syn包重传间隔是指数增加

# 已经建立了链接的tcp重传间隔,参考RTO

# 收到比较多ack重传,一般说明数据包出现乱序,seq较大的先到达了目的端,发送端收到3次sack会触发立即快速重传缺失的tcp分片。快速重传不太影响rt,但是发送窗口立即减半,会对吞吐带宽有一定影响

# 云环境虚拟机,还要考虑分析宿主机的问题

sudo ss -anti |grep -B 1 retrans #重传统计

if=bond0

sudo tcpdump -w /tmp/tcp.pcap -i $if -c 1000 -nn tcp 2>/dev/null

sudo tcpdump -nn -r /tmp/tcp.pcap | awk '{print $3,$5,$8,$9}' | sort | uniq -c | sort -rn |sed 's/^ \{1,\}//g'|egrep -v "^1 |Request"

2、联通性检查

ping $ip

nc -nvz $ip $port

3、接收端应用程序问题排查;来源和目的抓包,wireshark分析具体是什么包丢失导致了重传

3.2 多台机器或多个应用同时tcp重传

可能是网络抖动

排查思路

1、查看网络区域埋点,查看网络设备报警,看是否有区域网络抖动

2、区域网络没问题的话。可以用常见问题:1 的方法缩小排查范围

3.3 带宽跑满
排查思路

1、查看主机监控,检查是否带宽跑满

2、检查重传联路上相关的网络设备是否有带宽跑满

3.4 不常见问题

1 网络设备端口或光模块异常等导致包checksum失败 2 网络路由收敛抖动 3 主机网络驱动有bug,网络设备有bug等

4、如何监控

使用tsar -tcp -C 可以监控到tcp的retran属性也即是重传次数。

tsar --tcp -C | sed 's/:/_/g;s/=/ /g' | xargs -n 2

490e773eef7d54dc8a8e869877b02d68.png

感兴趣的朋友可以直接执行以下监控脚本获取tcp相关的状态监控数据,适用于open-falcon。

#!/usr/bin/env bash

HOSTNAME=`hostname`

timestamp=`date +%s`

tagapp="app=tsar.collect"

data_item=""

tsarcollectstring=`/opt/tsar/bin/tsar --tcp -C | sed 's/:/_/g;s/=/ /g' | xargs  -n 2 | tail -n +2|sed 's/ /|/'`

for i in $tsarcollectstring

do

getkey=`echo $i|awk -F "|" '{print $1}'`

getvalue=`echo $i|awk -F "|" '{print $2}'`

tags="$tagapp"

metric="tsar.collect.$getkey"

metric_item="{\"endpoint\":\"${HOSTNAME}\",\"tags\":\"${tags}\",

                 \"timestamp\":${timestamp},\"metric\":\"$metric\",

                 \"value\":${getvalue},\"counterType\":\"GAUGE\",

                 \"step\":60}"

if [ "${data_item}x" = "x" ];then

data_item="$metric_item"

else

data_item="${data_item},${metric_item}"

fi

done

echo "[$data_item]"

5、案例实践

1 在遇到丢包重传的机器上抓包并使用wireshark 分析该包,注意因为重传不是时刻都有的,所以抓包命令是要持续执行以便捕捉到重传的包。使用wireshark打开tcpdump的结果,在搜索框里入手tcp.analysis.retransmission 得到如下结果:

b484398c25a69d2bea954ba1520814e3.png

图1 表明服务端发生了三次重传动作。

2 由于包比较多,我们可以使用wireshark的追踪流功能获取重传相关的tcp流 8a6e79a809084330bcefe7ea937e1f13.png

图二 追踪流-->TCP流 可以得到重传相关的数据包

e9edd93b7ad9db6f3c2e5b528228fc18.png

图三 可以看出客户端和服务端的请求与应答。

3 解析重传

46396c84aa2f4f4df1cc40e1e2fb9d91.png

特别需要说明的是:

NO 67,68 client端由于某些原因没有收到正确的包数据,向server端发送dup ack,参考基础知识提到的快速重传

NO.68和NO.69之间的时间差200ms(关注time那一列,其他都是相差小于1ms),server等待超时,于是重传。

NO 73-74是client端发送了一个fin包并主动关闭连接。

这个案例仅仅发生一次,没有复现,通过抓包解析出来分析没有得到明确的结论。

6、小结

本文总结自己工作过程中遇到的TCP重传问题的解决过程 ,侧重于大致的解决问题的思路与具体的实践,理论知识偏少,大家有兴趣的可以多查阅相关文章以便深入了解tcp的工作机制。


分享一份面试宝典《Java核心知识点整理.pdf》,覆盖了JVM、锁、高并发、反射、Spring原理、微服务、Zookeeper、数据库、数据结构等等。

获取方式:关注公众号并回复 666 领取,更多内容陆续奉上,敬请期待。

 近期热文:

  • 阿里面试题,为什么wait()方法要放在同步块中?

  • JVM Code Cache空间不足,导致服务性能变慢

  • Spring StateMachine,教你快速实现一个状态机

c7d8729a660e29eb6650f81f4d6add2f.png

怼它一下?3e63480f5864ed3cf335e371e7270b32.png

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于 TCP 重传问题排查,以下是一些思路实践方法: 1. 分析网络环境:首先要确认网络环境是否稳定,检查是否存在网络拥塞、丢包或延迟等问题。可以通过使用网络诊断工具(如ping、tracert)来测试网络连通性和延迟情况。 2. 检查硬件设备:检查相关的硬件设备,如网卡、交换机或路由器等,是否存在故障或配置错误。确保硬件设备与网络环境兼容,并且能够正常工作。 3. 观察日志:查看系统日志,特别是与 TCP 相关的日志,以便定位可能的问题。可以在日志中搜索关键词,如“retransmission”、“dup ack”等,以找到与重传问题相关的信息。 4. 使用抓包工具:使用抓包工具(如Wireshark)来捕获网络数据包,并分析捕获的数据包以确定重传和重复确认的情况。注意观察 TCP 报文的序列号、确认号和窗口大小等信息,以及重传和重复确认的原因。 5. 检查应用程序:检查应用程序是否存在性能问题或设计缺陷,导致 TCP 连接不稳定或数据传输异常。可以尝试使用其他应用程序或协议进行测试,以确定问题是否与特定应用程序相关。 6. 调整 TCP 参数:有时,调整 TCP 参数可以改善重传问题。例如,调整 TCP 的超时时间、拥塞控制算法或窗口大小等参数。注意,对 TCP 参数进行调整需要谨慎,并且应该在测试环境中进行验证。 7. 更新软件和驱动程序:确保操作系统、网络设备的驱动程序和相关软件都是最新版本,以修复可能存在的漏洞或问题。 8. 咨询专家:如果以上方法无法解决问题,可以咨询网络或系统专家,以获取更进一步的帮助和建议。 请注意,以上仅是一些建议和思路,具体的排查方法和步骤可能因情况而异。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值