SRE实践之SLI/SLO设定

最新推荐文章于 2024-09-14 16:13:49 发布

mujingluo

最新推荐文章于 2024-09-14 16:13:49 发布

阅读量189

点赞数

文章标签：运维

本文链接：https://blog.csdn.net/mujingluo/article/details/132533009

版权

在监控建设中，稍微有点规模的公司，几乎都有告警不准、告警泛滥的问题，这几乎成为了运维人长期苦恼的问题。

那么追寻问题根源，一般是由以下原因造成

复杂的服务环境
没有做好SLI及SLO标定

第一种场景在一些有历史并且有一定规模的公司中非常常见，往往这种场景的解决需要一些自动化思路。比如在过往真实经历中，因各种原因，同一个服务的多个服务器规格不一，又因每个服务器的数据量存在变数，在对相关硬盘容量进行监控的时候，不管是按照百分比还是其它方式，结果总是要么数据迁移不及时导致数据丢失，要么陷入频繁的无效告警。其实追溯硬盘监控的目的，其实是解决数据保存问题。所以最终解决方案是，写一个通用的判断剩余容量并执行数据迁移的自动化脚本，放到每一个服务器上设置自动任务，然后监控系统不再对硬盘进行监控，而是转而对脚本是否执行以及执行是否错误进行监控，基本解决了报警泛滥及报警不准的问题。

第二种场景往往是在监控体系建设中，许多运维人常常犯的一种思维问题，就是告警不力的情况，总是认为是监控指标不够多，一味的准求大而全。其实殊不知指标过多非但不能解决问题，甚至还可能将问题更加复杂化，监控指标的选用一定要坚持“减法”原则。比如在过往真实经历中，某个核心服务经常出现问题，用户侧表现是不能下载，但具体映照在服务上，如服务故障、网关故障、资源不足等等问题都会导致用户不能下载。在监控实践中，反映一个问题所需要的指标，往往是不超过三个，我们在针对用户不能下载的表现监控上，经过广泛讨论，分别对相关核心接口进行站点监控，主要监控延迟及5xx错误，对核心中间件消息队列进行监控，主要监控分钟内有多少排队，对服务进行健康监控，是否正常状态。一旦出现相关告警，即意味着用户侧出现问题，需要立即介入解决。而针对资源不足可能导致的问题，则针对性的增加弹性伸缩方案，在做好容量规划的基础上，不再对资源进行监控告警，转而只是监控弹性伸缩的状态及是否正确运行。另外基于“减法”原则，对Kubernetes的Node监控也进行了相应取消，只对Pod的资源及Kubernetes的状态事件进行监控。

做好监控，不仅仅是需要技术，更需要优秀的思维方式，以下是总结的如何做好监控的步骤