我觉得分为四步,梳理、监控、增强、演练 梳理 梳理主要是,系统薄弱点梳理 1、核心服务链路 2、核心接口 3、数据库表,数据结转梳理,缓存检查 4、JVM 5、压力风险点 监控 1、告警监控 资源监控tp99监控慢sql监控可用率监控日志监控阈值调整MQ监控 2、接口限流 3、服务开关 4、服务降级 增强 1、资源服务扩容 异地容灾集群 2、故障预案 各种问题的解决步骤 3、历史备战资料库 演练 1、压测演练 2、捣乱演练 3、故障演练