概念 平均无故障时间 Mean Time Between Failure平均故障恢复时间 Mean Time To Repair可用性 Availability = MTBF/(MTBF + MTTR) 设计原则 减少故障发生的可能 避免单点容错过载保护有效的监控、运维 减少故障恢复时间 无状态有状态: 状态的持久化故障隔离:分流可运维干预 降低故障的外部影响 功能降级