漫谈SRE之对事不对人的文化

最新推荐文章于 2023-10-08 20:29:12 发布

运维Linux和python

最新推荐文章于 2023-10-08 20:29:12 发布

阅读量376

点赞数

序言

风不在，雨不停，最近很忙，忙如狗。。。但是感觉上是瞎忙，但是却又不得不做。。。。

告警治理是个博弈的活儿，一直想做，但是没有太大的动力去推动。。。只有故障之后，才会再次去做这些事，要不然没人关注。。。故障是最博眼球的东西了，会大大提升很多事的优先级。

告警治理

每个人每天的时间是一样的，但是只要同时处理超过三件事，基本上事事都会以悲剧结尾，每天就那么点时间，短信告警如水一般发送到手机上，你还会看么？

短信告警，很直观的告警，出现了告警，看一样告警。。。出现大量告警，忽略。。。不做任何处理，慢慢的，就会忽视真正的大故障。

心生倦怠，这就是为什么再美的东西看久了也会产生厌烦的心理。

那么问题来了，告警如何定义？每天发生几次告警才能及时的处理？

随便上网一搜，各种各样的监控工具，各种各样的监控项，各种通用的监控。。。一般人进行配置告警的时候，就会将一些基本的告警项进行配置，后续是否有进行过优化？需要的就加上。。。不需要的就去掉，通用的版本并不一定适合每个人，每个人都有特殊性。

告警，主要是为了反映底层系统或者业务系统的问题，或者是发生了一些错误，定义告警，也就是定义关键的指标项，必须立即处理的，那么就应该发送通知，比如我的SLB的开放的端口服务，这个一挂，全部服务中断。定义了告警，那么也可以定义故障的等级。。。不根据告警来定义故障等级都是耍流氓。。。需要进行关注的，那就应该发送通知，而不应该发送告警。。。例如有些服务能自动恢复，例如虚拟机中的服务能自动迁移，不会导致服务中断。

在定义监控的时候，可以根据两个维度来进行定义，一个是资源层，也就是IAAS层面或者是PAAS层面，在这个层面定义的告警，一般是各种关键的服务指标的定义，如果不可用，可能会影响业务层，但是有些服务是负载均衡机制的，如果没有定义这种告警，那么慢慢的又会将问题掩盖，直到服务不可用；一个是业务层，业务层发生告警，其中就代表了业务影响范围。

最终，故障等级也就根据业务层的影响来确定故障等级。

发生几次告警才是正常的？重大故障的除外，而普通的日常运维中，没有告警是最好的，不要超过三次告警，在神经紧张的情况下，你能处理几次故障？？？

告警治理其实是一项长期的工作，而不是短期的突破就可以。。。每一次故障，每一次告警，你都应该有后续动作，是优化告警项？故障了告警没有发出来，你是否添加了监控的指标？告警发出来了，然后发现是误报，是不是可以修改监控项？持续优化才是王道。。。

紧急事故处理流程

每天来一个故障，刺不刺激，紧不紧张。。。。

来了一个故障，各大领导都来慰问你，刺不刺激，紧不紧张。。。。

来了一个故障，有领导问你业务影响，有领导问处理进展，有领导质问你为什么还没定位到问题。。。而你，还在看各种错误日志。。。三头六臂，一目三行。。。这个时候，你是否想到了，关键时刻，一个个就会逼逼，还能干啥？？？

有人说，你按照流程走的，不怂，这个锅你不用背。。。。但是，有没有想过，不背锅不代表不用反思。。。每一个指令下去都有可能造成更大的故障。。故障蔓延！！！你发生车祸了，但是你没死。。。是不是应该感到很开心？？？这种劝慰人的方法是不对的！！！

这不是演练！！！但是。。。没有既定的流程！！！

参考流程如下：

1、收到告警，查看关键的运维平台查看对应的错误，如果定位到错误，进行相应的处理；

2、没有定位到错误，通知相关责任人，发布故障，进行故障时间和故障进度的记录及通报；