系统风险点梳理
数据库
- 是否存在慢查询
- 数据库磁盘容量是否足够
- 数据库负载是否在高位
缓存
- 缓存命中率是否合理
- 是否存在缓存穿透问题
- 是否存在缓存击穿问题
- 缓存容量是否足够
- 缓存负载是否在高位
服务
- 是否接入熔断
- 是否接入限流
- 是否存在读,写请求放大问题
- 是否存在panic问题
降级
- 依赖的服务与接口,是否有容错降级处理
- 目前的降级设计是否合理
热点
- 针对热点问题的方案设计是否合理
- 是否对热点数据进行了压测
压测
- 接口压测预期值评估是否合理,是否考虑了活动的突发流量以及未来的自然增长流量
- 接口是否能压测到预期值
- 压测时,依赖的下游是否正常工作
- 压测时,消费的消息是否出现堆积
项目设计
- 项目是否有设计文档
- 设计方案是否经过评审
研发流程
- 研发流程是否合理
- 与端上的合作流程是否有规范
- 与依赖服务的业务方合作是否有规范
- 功能上线发布,是否有规范
测试
- 单测是否达到一定覆盖率
- 接口是否有集成测试
监控告警
- 是否有接口报错告警
- 是否有流量异常告警(异常升高,异常下降)
- 是否有高负载告警
- 线上故障时,是否能第一时间收到告警