列出了高可用常见的问题和应对措施。
问题 | 典型案例 | 增大 MTBF | 减小 MTTR |
---|---|---|---|
程序、配置 Bug | 程序、配置 Bug | 提升研发、测试质量,灰度发布 | 监控告警、快速回滚 |
机器、机房故障 | 宕机、机房断电 | 硬件冗余、多机房 | 自动故障转移,切流到其他冗余机器、机房 |
突发流量 | 上游系统异常重试、外部攻击 | 上游系统容错调度防雪崩、流量配额、防攻击、防抓取 | 其他同容量不足 |
容量不足 | 主流程容量不足 | 容量规划、容量预警 | 限流、降级、熔断弱依赖、快速扩容 |
依赖服务故障 | 依赖服务失败率高、超时严重 | 弱依赖降级解耦,强依赖递归使用前述方法增强可靠性 | 熔断弱依赖 |
高可用常见方法论
参考