系统总出故障怎么办,或许你该学学稳定性建设

本文探讨了系统稳定性的重要性,并按照上线前、上线时和上线后的时间维度,详细阐述了可能导致系统不稳定的各种因素及对应的稳定性建设措施。包括研发流程规范、发布流程规范、高可用设计、监控报警、故障管理等关键点,旨在帮助提升系统的稳定性和可靠性。
摘要由CSDN通过智能技术生成

前言

说到系统稳定性,不知道大家会想起什么?我想大多数人会觉得这个词挺虚的,不知道系统稳定性指的是什么。

一年前的我看到这个词,也是类似于这样的感受,大概只知道要消除单点、做好监控报警,但却并没有一个体系化的方法论。

经过一段时间的摸索,我对系统稳定性有了较为体系化的认识,于是迫不及待地希望和大家一起分享。所以今天,就让我跟大家简单聊聊系统稳定性建设这个话题吧!

何谓稳定性?

系统稳定性,从字面上来看,就是让系统尽可能稳定,不要出问题。 但业务是变化的,系统肯定也是一直变化的,有可能新加了个功能就把系统搞挂了,也有可能突然业务流量暴增把系统搞挂了。所以,要保障系统稳定性可谓非常之难。但即使再难,也还是得去做,但到底怎么做呢?

我们要保障系统稳定性,那就需要知道哪些因素可能会造成系统不稳定。我自己来了一个头脑风暴,把所有可能造成系统不稳定的因素整理一下,下面是我梳理的会造成系统不稳定的部分因素:

  • 未测试需求直接上线
  • 上线的需求产品不知道
  • 上线的新需求有 bug
  • 频繁发布需求
  • 发布紧急需求
  • 上线后没有线上验证
  • 系统设计方案存在缺陷
  • 系统代码实现存在缺陷
  • 漏测了某个功能
  • 上线时操作失误
  • 下游服务挂了
  • 网络中断导致调用失败
  • 上游调用流量突增,冲垮服务
  • 应用服务器内存溢出 OOM
  • 应用服务器 CPU 100%
  • 数据库主从延迟了
  • 数据库主库挂了
  • Kafka 消息挤压了
  • Redis 响应缓慢
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值