SRE之延迟优化案例

1、延迟背景

业务对某个服务的延迟特别敏感,例如制定的SLO为20ms 99.99%延迟,但业务还是会偶发耗时比较高达上千ms,这种长尾问题相对严重,导致失败率也不达标,成为整体业务的关键瓶颈之一。那么如何去优化延迟呢?

2、解决思路

1)业务的代码框架问题,查看函数调用的火焰图?
2)RS主调被调之间的网络问题,抓包分析是否有丢包?
3)梳理RS所在机房的网络问题,抓包分析跨机房是否有影响?
4)容器所依赖的宿主机负载问题,监控延迟高的时间段是否高负载、流量满?
5)TCP队列:半连接syns queue、全连接qaccept queue 队列是否有溢出情况?

2.1 tcpdump抓包

# tcpdump tcp -i eth1 -s 0 -c 10000 and port ${target_port} and host ${target_host} -w /target_xxx.cap

tcpdump tcp -i eno16777736 -s 0 -c 10000 and port 22 and host 192.168.137.13 -w target_13.cap

2.2 结合wireshark

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 mtr 抓包 查看稳定性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值