
服务稳定性运维保障体系建设的误区
这是许多运维人员长期陷入的一个误区,认为解决故障的能力是特别重要的,总是把更多的时间放在了如何提高个人技术和应急处理能力上,造成这个的原因是多面的,有运维人自身认识问题,也有KPI制度的不合理问题,老板对运维的认知问题(认为运维和研发是一样的,喜欢见到运维与研发一样忙碌),还有历史留下的繁杂技术包袱问题。而故障告警的作用则是对一些不可知、不可抗力因素和无法自动化的问题的兜底,告警的出现就一定是需要人工立即介入的事件,而人工的介入一定是有时延的,等到人去解决的时候,往往是业务已经受到了影响。
















