业务系统稳定性建设思路

1. 基本原则

墨菲定律,放弃幻想,快速响应,主动改进。

2. 稳定性核心工作

  • 技术视角:提升系统的可用性与可靠性;降低故障时间、次数;快速止损;系统可持续地工作。

    • 可用性:故障持续时间短,在任何给定的时刻都可以 及时地工作;

    • 可靠性:故障发生次数少,在较长的时间内 无故障 地 持续的工作;

  • 业务视角:少故障;若发生,影响尽量少,持续时间尽量短。

2.1. 三个着力点

e59d8f104b4366272f6c16f7b53e827a.png

业务保障是目标;故障管理贯穿始终;流量影响业务发展;成本是基础约束

2.2. 具体事项

d320cbf38551e9cf82b5c6b028e055ed.png

3. 实施框架

3.1 故障管理

38716101cd46ce6cb88879e7efb12ee6.png

3.1.1 建设框架

方案一:围绕生命周期建设

7a314bd3006161850fe67845964864cf.png

优点:

  • 容易理解,实际基本按照这个逻辑分析、处理问题

缺点:

  • 故障没有分类,共性没有体现出来,不利于实际建设

方案二:围绕故障分类建设

8769be026678ded7dac127df64ad89ad.png

优点:

  • 容易对故障进行归因,以及设置解决路径

缺点:

  • 理论上人为因素都该事前避免,但实际不可能;因此最终还是会结合生命周期去落地,不同阶段的处理办法

方案三:围绕上线流程建设

0aabe226b170c34e5005240ae9535a45.png

优点:

  • 与生命周期一致,可较好理解去落地一些具体能力

缺点:

  • 考虑不全面,仅涉及系统变更流;系统变更可以按照这个流程去做,但不能作为整个稳定性的指导框架

方案四:围绕分类与生命周期建设

6b61113558e91913fa21d93ef226e3e4.png

优点:

  • 分类便于我们归类问题,进行统一能力建设

缺点:

  • 没想到

3.1.2 建设阶段

f7962183b165e7340c95b9c86e3b86af.png

3.2 流量建设

b0e5cf8fe329aa54d6ddf058a7a72123.png

3.2.1 流量支撑

d53880005a89c2caf3791c3e2260fbac.png

3.2.2 流量质量

d807463e45b85280407757e7e0a214f1.png

RT一般是流量支撑中较为关键的一环。这里补充其解决框架:

1e99837d51ddf0836d52705de0574771.png

3.3 成本管理

8602f5c89768ff2cd435ce318555dcc7.png

结束语

稳定性建设个人觉得是高可用建设的一个过程;没有捷径可言,只能一个个系统排查,一个个坑填掉,一个个人的提升,一个个场景的覆盖,一个个技术债解决掉。

4 参考资料

[1] https://www.on0926.com/%E7%B3%BB%E7%BB%9F%E7%A8%B3%E5%AE%9A%E6%80%A7%E6%B2%BB%E7%90%86%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5%EF%BC%88%E4%B8%87%E5%AD%97%E9%95%BF%E6%96%87%EF%BC%89/

[2] https://www.6aiq.com/article/1614358364962

[3] http://interview.wzcu.com/Article/%E9%AB%98%E5%BE%B7%E6%89%93%E8%BD%A6%E7%A8%B3%E5%AE%9A%E6%80%A7%E5%BB%BA%E8%AE%BE.html

[4] https://www.51cto.com/article/720958.html

[5] https://www.mpoom.cn/2022/02/24/distributed/xi-tong-wen-ding-xing-yu-gao-ke-yong-bao-zhang-de-si-kao/index.html

[6] https://www.infoq.cn/article/z4ssmnks3w4ebbustyo1


程序改变的不止是世界

也改变了你我的头发

公众号ID

dayuTalk

d7a45d199a2fe24f3588fada48a7797c.jpeg

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提高系统稳定性的控制方法有很多,以下是一些常见的方法: 1. 引入冗余:通过增加冗余组件来提高系统的容错能力,当某个组件出现故障时,冗余组件可以接替其功能,保证系统的稳定运行。 2. 实施监控与预警:设置监控系统来实时监测系统的运行状态,当系统出现异常时能及时发出警报,以便及时采取措施修复问题,避免问题进一步扩大。 3. 自动化运维:通过自动化工具和流程来管理和维护系统,减少人为错误和操作风险,提高系统稳定性和可靠性。 4. 定期备份与恢复:定期备份系统数据和配置信息,并建立可靠的恢复机制,以便在系统故障或数据丢失时能够快速恢复。 5. 引入负载均衡:对于高负载的系统,通过引入负载均衡技术,将请求分散到多个服务器上,避免单点故障和过载,提高系统的可用性和稳定性。 6. 引入容器化技术:使用容器化技术如Docker等,将系统组件打包成独立的容器,实现组件之间的隔离和资源分配,提高系统稳定性和可维护性。 7. 引入监控和度量:通过引入性能监控和度量系统,可以实时监控系统的性能指标,并进行性能分析和优化,提高系统稳定性和性能。 这些方法只是一些常见的控制方法,实际情况可能因系统类型、规模和业务需求等而有所不同。因此,在具体场景中,还需要根据系统特点和需求来选择和实施适合的方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值