生产问题(五)TCP丢包解决

5 篇文章 0 订阅

一、引言

        接上篇TCP丢包排查_tingmailang的博客-CSDN博客,丢包的排查确认在环境、网络链路层,对于后续的排查以及解决方案博主全程跟踪,这里再分享下。

二、丢包原因-操作系统层面

        上篇文章定位到tcp握手偶发丢包,运维联系了阿里云人员排查丢包是否和云平台有关,阿里云进行了系统监控,发现的确是有不少丢包现象。

                                              

        阿里云说明在kernel-4.19.91-25.1.al7及之前的内核版本上,当应用程序同时发起多条TCP连接请求时,大量TCP报文经过NAT表并有概率获取到重复的端口。Conntrack模块在确认阶段发现端口存在重复的情况,丢弃了相关的TCP报文。

        iptables防火墙可以用于创建过滤(filter)与NAT规则,所有Linux发行版都能使用iptables。所以获取到NAT的重复端口的linux的机制决定的。

        有的同学可能有疑问,k8s不是隔离的吗,怎么会出现端口重复使用?实际上如果一个物理机一个k8s容器,那的确是隔离的,但这样也失去了k8s的意义:隔离内存磁盘等物理机上容易相互干扰的资源,干脆一个物理机一个服务算了。

        生产环境基本上一个物理机会有十几个服务,而内核cpu、网络端口这些实际上是被k8s容器中的服务共用的。

总结一下当前微服务环境下的请求发送过程:

        ①x服务发出请求,通过iptables的NAT表对(数据包的)网络地址(IP + Port)进行转换,获取端口

        ②端口发送tcp握手包,Linux的Conntrack模块自检确认(包会经过 nf_conntrack_in() 、 nf_conntrack_confirm() 进行创建(new)和确认(confirm)两个阶段 

        ③请求到达服务网格1

        ④服务网格通过iptables的NAT表对(数据包的)网络地址(IP + Port)进行转换,获取端口,建立tcp链接

        ⑤网格发送tcp握手包,Linux的Conntrack模块自检确认(包会经过 nf_conntrack_in() 、 nf_conntrack_confirm() 进行创建(new)和确认(confirm)两个阶段 

        ⑥服务端操作系统收到握手请求包,通过iptables的NAT表获取端口,使用该端口与客户端网格建立tcp链接

        ⑦网格1转发数据给网格2

        ⑧服务网格2接收请求数据,转发给y服务处理

 这里可以看出这一次的问题就在第二、五,获取端口重复,linux自检确认的时候就会直接丢弃这个数据包,握手超时,tcp再次发起握手。

三、丢包解决-操作系统层面

         根据阿里云的描述4.19的时候是顺序获取,所以比较频繁,使用yum升级到5.x以上,5.X的内核是随机获取,出现端口重复的频率比较低。

        这种解决方式是概率性的,重复端口丢包的风险依然存在,只是频率会下降,不过阿里云做了其他优化,在端口重复丢包的时候会立刻通知tcp重传,这样延时就降低到了ms级别。

四、丢包解决-服务层面

        虽然说丢包是操作系统与网络层面的问题,但是服务层面也不是没有优化解决的办法,或许不能称之为解决,和操作系统的升级一样,只是尽量降低丢包频率。

        根据上一篇文章定位到的,丢包基本是第一次握手发生,那么是否可以尽量避免tcp新建链接,多多复用呢?

        还是有这种办法的,服务使用的json序列化是fasterxml.jackson默认的EAGER_DESERIALIZER_FETCH,这种序列化读取响应json的时候最后一个\r\n有可能不会读取 这样下一次复用连接的时候会发现有脏数据\r\n关闭连接,并且进行新建tcp链接。

        修改为使用FAIL_ON_TRAILING_TOKENS就可以减少上面这种情况的新建tcp,对于jackson自身的影响是如果是"{json}xxxxx" 这样的字符串 之前是可以反序列的 加了以后会失败,但是在正常的业务场景不会出现这种异常json。

        当然,这种改动并不是直接针对丢包的,主要是想复用tcp,所以效果是有概率的,新建链接是不可避免的,链接不会一直被复用,就看因为网络原因会丢包的时候,是正好复用链接还是新建链接。

五、总结

        最终定位到了tcp握手丢包是阿里云内核容易取到重复端口建立tcp链接,linux自检确认发现重复使用就会丢弃握手数据包。

        解决方案是操作相通升级内核(随机获取替代顺序获取、端口重复丢包的时候会立刻通知tcp重传)、服务使用json配置FAIL_ON_TRAILING_TOKENS(减少新建tcp链接)

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
GD32F4是一款基于ARM Cortex-M4内核的微控制器系列,而lwIP(lightweight IP)是一个轻量级的TCP/IP协议栈。在使用GD32F4和lwIP进行TCP通信时,可能会遇到丢包问题TCP丢包是指在TCP通信过程中,部分数据包没有被成功接收或传输。造成TCP丢包的原因可能有多种,以下是一些可能的原因和解决方法: 1. 网络问题:网络不稳定、带宽限制、网络拥塞等都可能导致TCP丢包。可以通过优化网络环境、增加带宽、调整网络拥塞控制算法等方式来解决。 2. 缓冲区溢出:lwIP使用了一些缓冲区来存储接收和发送的数据包,如果缓冲区大小不足或者没有及时处理缓冲区中的数据,就可能导致丢包。可以通过增加缓冲区大小或者优化数据处理逻辑来解决。 3. 超时设置不合理:TCP通信中,超时设置对于保证数据可靠传输非常重要。如果超时设置过小,可能会导致数据包被错误地判定为丢失;如果超时设置过大,可能会导致数据传输速度变慢。可以根据实际情况调整超时设置。 4. 错误处理不完善:在使用lwIP进行TCP通信时,需要正确处理各种错误情况,比如连接中断、重传超过次数等。如果错误处理不完善,可能会导致丢包。可以通过增加错误处理机制和日志记录来解决。 以上是一些可能导致GD32F4 lwIP TCP丢包的原因和解决方法,具体情况需要根据实际应用场景和代码进行分析和调试。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖当当技术

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值