故障预防 基本指标监控异常后进行调控,如负载协调等测略,保证异常不裂化为故障 故障感知 就是通过监控获取指标,并对指标数据进行阈值和关联分析,提前识别异常,预测故障场景,发送告警提醒 比如常见的CPU/MEM/IO,线程死锁,DB连接,慢查询等 基本检测规则如设置阈值 关联检测如单个进程CPU,总体CPU 故障诊断 根据故障感知的输出,结合故障树即专家经验,识别明确故障场景 案例积累梳理很重要, 故障恢复 以故障诊断的输出作为输入,通过恢复策略执行实现故障自愈