1. 基本原则
墨菲定律,放弃幻想,快速响应,主动改进。
2. 稳定性核心工作
技术视角:提升系统的可用性与可靠性;降低故障时间、次数;快速止损;系统可持续地工作。
可用性:故障持续时间短,在任何给定的时刻都可以 及时地工作;
可靠性:故障发生次数少,在较长的时间内 无故障 地 持续的工作;
业务视角:少故障;若发生,影响尽量少,持续时间尽量短。
2.1. 三个着力点
业务保障是目标;故障管理贯穿始终;流量影响业务发展;成本是基础约束
2.2. 具体事项
3. 实施框架
3.1 故障管理
3.1.1 建设框架
方案一:围绕生命周期建设
优点:
容易理解,实际基本按照这个逻辑分析、处理问题
缺点:
故障没有分类,共性没有体现出来,不利于实际建设
方案二:围绕故障分类建设
优点:
容易对故障进行归因,以及设置解决路径
缺点:
理论上人为因素都该事前避免,但实际不可能;因此最终还是会结合生命周期去落地,不同阶段的处理办法
方案三:围绕上线流程建设
优点:
与生命周期一致,可较好理解去落地一些具体能力
缺点:
考虑不全面,仅涉及系统变更流;系统变更可以按照这个流程去做,但不能作为整个稳定性的指导框架
方案四:围绕分类与生命周期建设
优点:
分类便于我们归类问题,进行统一能力建设
缺点:
没想到
3.1.2 建设阶段
3.2 流量建设
3.2.1 流量支撑
3.2.2 流量质量
RT一般是流量支撑中较为关键的一环。这里补充其解决框架:
3.3 成本管理
结束语
稳定性建设个人觉得是高可用建设的一个过程;没有捷径可言,只能一个个系统排查,一个个坑填掉,一个个人的提升,一个个场景的覆盖,一个个技术债解决掉。
4 参考资料
[1] https://www.on0926.com/%E7%B3%BB%E7%BB%9F%E7%A8%B3%E5%AE%9A%E6%80%A7%E6%B2%BB%E7%90%86%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5%EF%BC%88%E4%B8%87%E5%AD%97%E9%95%BF%E6%96%87%EF%BC%89/
[2] https://www.6aiq.com/article/1614358364962
[3] http://interview.wzcu.com/Article/%E9%AB%98%E5%BE%B7%E6%89%93%E8%BD%A6%E7%A8%B3%E5%AE%9A%E6%80%A7%E5%BB%BA%E8%AE%BE.html
[4] https://www.51cto.com/article/720958.html
[5] https://www.mpoom.cn/2022/02/24/distributed/xi-tong-wen-ding-xing-yu-gao-ke-yong-bao-zhang-de-si-kao/index.html
[6] https://www.infoq.cn/article/z4ssmnks3w4ebbustyo1
程序改变的不止是世界
也改变了你我的头发
公众号ID
dayuTalk