总述
稳定性问题分为逻辑问题和架构问题。
逻辑问题三板斧:理念正确、流程规范、刨根问底。
逻辑问题
理念正确
曹操煮酒论英雄,对刘备发表了自己对英雄的看法:
胸怀大志,腹有良策,包藏宇宙之机,吞吐天地之气。
意思是说所谓英雄,要志气远大,计谋精良。胸怀能包含宇宙,志气能吞吐天地。对稳定性建设来说就是既要有道,又要有术,道为先。
稳定性理念举例
Everything fails!
如果一件事情有可能发生则在生产环境中一定会发生。
不要容忍破窗户。
过程对了结果一定不会差。
一个问题可能是许多事故的原因。
WHY
理念是目标和原则。错误的理念产生不了正确的行动,在稳定性方面是巨大的隐患。
试想如果一个人觉得一个系统是不可能出问题的,那他一定就不会制定故障处理的紧急预案,出现问题了也不能很好的控制影响范围。
如果觉得一个问题是小概率事件是不会发生的,就不会对问题进行修复和补救。而所谓小概率事件如果发生概率在万分之一。一般线上系统一天调用量就不只几万次,所以也就没有什么小概率事件了。
小的问题不修复,问题积少成多,不但修复变的困难,还会让人产生反正已经这样了的放弃心理,最终造成大问题。
流程规范
很多大公司的稳定性60%以上都是通过流程来保障的,有些流程经过自动化,开发人员习以为常&#x