一个api的 rt 大涨问题排查

最新推荐文章于 2024-09-02 20:15:46 发布

追寻北极

最新推荐文章于 2024-09-02 20:15:46 发布

阅读量2k

点赞数 1

分类专栏： checking

checking 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

mtop是移动接入网关平台，对客户端暴露api，后端接api实际的应用服务，有HSF，也有http的服务端。

之前进行了机房从杭州搬迁到上海，在搬迁的过程中，其中一个api的rt突然大涨，(之前平均的约210ms)

分析具体的原因了，当时正机房搬迁，首先考虑的就是是否此影响，是否发生了跨机房调用的导致，当时把整个杭州的后端服务全部干掉，确认没有跨机房调用，但rt还是没有降低，仍旧很高。

还是要整体性的分析，当前的情况，不存在跨机房的调用，暂仅发现此api存在rt大涨的情况，其他的api都已经实现搬迁，且rt没有存在这种异常的大涨情况。那后续就是重点分析这个api的请求从mtop到后端的每个链路是否存在问题。

此api是http的接入方式，mtop对http的接入服务，采用 vipserver(软负载均衡)分配具体机器+httpasyncclient异步callback调用模式。其他的模块与hsf服务调用是共用的，因此排查的范围缩减，此时查问题神器btrace出场。同事去写脚步监控分析对vipserver以及http调用链路上的耗时情况。

而我则在各种数据报表上分析查看（事实证明，完善的监控报表数据是非常有效的）

mtop有个机器性能的监控报表数据（之前出现过单机问题，但整体数据上无大幅波动。虽然按机器分析报表数据量比较大浪费存储，关键时刻显作用）

排查首先发现，发现上海包间1的速度快于包间2的速度，（一个2s，一个低于1s），那就先找pe把流量全部导到rt稍微好一点的机房，但结果rt也上涨了。

再分析发现此api杭州的调用才约550ms（跨机房调用到上海的服务端,为什么已经完全且流量到上海，可杭州机房还有流量呢？主要是客户端上有dns缓存防拦截技术），可上海的直接机房间调用需要1.4s以上。这非常不符合常规。

首先考虑是用户体验，550ms总比秒级的rt好，因此先把流量导到杭州，完成一半后，rt就降低到900多ms。此时网络那块排查说交换机存在一定错误，正在处理。后续rt又出现波动。

btrace此时分析结果是rt一切正常，同时排查这个api后端应用服务确认没有存在问题，直接在机器上curl 也是快速的。那就先考虑把此api流量全部且回杭州，切换完成后，rt降低到了450ms。这样对用户体验会好很多，但问题还要继续排查。

现在情况：
nginx（上海）===》mtop（上海）===》应用（上海）rt约1.4s
nginx（上海）===》mtop（杭州）===》应用（上海）rt约450ms

竟然绕道杭州比上海机房直接调用快，btrace分析方法的调用时间是正常的，mtop框架是基于servlet3异步+HSFcallback/http callbcak模式的（后端业务如果发生异常，rt耗时大涨，不会对mtop性能产生特别大的影响），因此剩下就要分析http的结果为什么慢了，此刻另一神器tcpdump登场

一抓包分析就发现好几个问题：
1、连接握手时候协商的窗口只有1460，报文都是1个窗口在发送，协商mss是1460，可实际都是834在发送数据

2、api结果数据比较大，发生的报文非常多，因为问题1，每次都只能一个报文发送应答后才接着发生，如果数据有40k，那差不多要传输50次，要50个RTT。
截取部分数据

3、上海机房的请求中经常看到超时重传，一超时重传最小+200ms（RTO虽然会由RTT计算确定，但当前内核限制了最小RTO是200ms，个人感觉在tcp协议设计是为防止网络拥塞，但内网环境完全可以减少这个值，由RTT计算，毕竟相对内网丢包概率低，rtt非常小）

问题1浪费了带宽，同时引起问题2狂发生报文，问题3会增加rt，但问题2又加剧了一个请求在问题3出现超时重传的概率。因此很多请求从发起到结束耗时超过1s，同时发现杭州机房也有问题1和2，但丢包比较少，因此rt情况比上海的好很多。而且上海到杭州多月5ms时延，问题2多次rtt发送，50次约导致250ms浪费，看上去和之前210ms的rt比较接近。

可为什么机器上直接curl速度正常，可程序调用就出现了上述报文的情况呢？分析tcp的参数，没有什么特别情况，那很大可能是应用上的问题，再看httpasyncclient的配置

httpasyncclient在初始化时候，有对socket的SOSNDBUF和SORCVBUF设置，我们设置是1024，是否此值有关联呢？那就进行测试，把此值去掉取默认