22、分布式追踪助力性能回归问题解决

分布式追踪助力性能回归问题解决

1. SLOs 和 SLAs 的重要性

设置服务水平目标(SLOs)和服务水平协议(SLAs)有助于建立基线性能,并明确何时需要采取行动。与仅关注应用程序性能的服务水平指标(SLIs)和 SLOs 不同,SLAs 将性能与现实世界的后果联系起来。

例如,如果目标是将 99% 分位数的延迟保持在 1 秒以下,而延迟从 200 毫秒增加到 250 毫秒,此时可能不值得半夜起来处理,但这可以作为下次有空闲时间时提升性能的切入点。

使用更严谨的基线性能定义,能让我们更有信心判断何时需要采取行动恢复性能,也能帮助我们确定何时无需行动,毕竟对生产系统进行更改总是存在风险。

2. 人为因素的影响

在深入探讨如何使用分布式追踪确定导致性能回归的变更之前,考虑追踪如何在事件响应中支持人员和流程是很有必要的。与提升基线性能不同,事件响应是无计划的工作,时间通常至关重要,因此促进沟通和人际互动在事件响应中比在典型工程工作中发挥着更大的作用。

  • 责任推诿问题 :没人愿意为性能回归承担责任,团队倾向于以能快速证明自己无责的方式衡量性能。当性能回归发生时,很多团队会拿出证据证明自己无错,但往往缺乏确凿证据。
    • 例如,服务 A 为服务 B 等提供共享存储解决方案,服务 B 延迟增加,服务 B 团队指责服务 A,而服务 A 指标显示其仍满足 SLO,服务 A 团队称可能是服务 B 滥用 API。
    • 分布式追踪可以解决这类冲突,它能从服务 A 和服务 B 的角度衡量服务 A 的性能,找出真正的问题所在,如服务 A
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值