质量是公司的生命线!这个口号喊出去容易,做起来还是有挑战的,很多公司的口头禅也都是这个。
线上的产品成型,涉及的角色有销售,运营,项目,产品,测试,研发,运维,客服等等。但是交付给用户体验的最后一道关卡是运维。
运维负责将代码放到机器上供用户使用,一旦出现问题,运维也是第一个收到消息,他需要直接解决或者联合其他人员一层一层的定位修复。
服务的稳定保障分三个阶段:事前,事中,事后。要想SLA服务可靠性如99%,99.9%,99.99%,99.999%,那么必须在事前做的足够好才行,这也是告警体系需要发挥的的价值。
为什么一定要建设告警体系?
地震来了,要不要先通知你跑人?这就是告警体系的作用。
事前考验的是我们的架构能力和体系建设能力;事中考验的是我们的经验和技术能力;事后就需要我们复盘吸取教训完善事前和事中。
事故一般什么时候发生?
普通的正常的业务迭代研发上线,只要服务集群足够不会有太多的冲击,就算有也不会是致命的。
活动冲击才是致命的,