1. 保证系统的SLA:
保障系统99.99999% 的可用时间
2. 系统容灾
- 机房容灾
- 程序容错
- xxx
3. 运维效率
- PE 脚本自动化
- 运维白屏化
- 推动系统架构设计和系统自动容错
4. 资源成本控制
- 一年一度的预算,需要做好
- 机器资源水位 35%
- 架构设计上评估资源是否合理;
- 通过架构优化来节省机器资源
- 全链路的机器把控
5. 监控优化(快速发现)
- 监控覆盖面要全
- 监控添加效率要高
- 监控误报要少,避免狼来了
6. 快速恢复
- 梳理现在系统的问题、风险点
- 针对可能出现的问题和风险点,制定对应的应对措施;重要的措施要预先进行演练
- 问题的沉淀、解决方案的成熟
7. 全链路的容灾、水位摸底、压测
8. 流量入口来源的把控(统一接入平台)
- 作为一个平台,把控流量入口,最好只有一个或者<3个入口;这样才好统一把控
- 流量来源的埋点和报表
- 避免出现因为业务进行系统拆