1.为什么需要故障演练平台,能带来什么价值?
-
一个好的系统并不是说不会出现故障,而是在故障发生之后能够重试、限流或者熔断等操作,这对系统的弹性及健壮性有很大的要求。如果能够将策略再次前置,通过主动制造故障,测试系统在各种极端场景下的反应,就可以提前识别或修复故障。
2.什么是故障演练?
-
目标是沉淀通用的故障模式,以可控成本在线上重放,以持续性的演练和回归方式运营来暴露问题,不断推动系统、工具、流程、人员能力的不断前进。
3.故障演练平台与可观测平台
3.1 平台间联系
-
我理解的混沌工程=可观测+模拟故障,所以对于混沌工程来说还需要一个观测平台。在演练前定义系统的稳态指标,在对比了注入干扰后观测平台收集的指标之后,就可以判断系统的稳定性,甚至可以一下就找到系统问题。
3.2 可观测平台
-
可观测平台又叫立体化监控平台,是一个包含指标、日志、链路的多维监控。
-
我们要搭建一套更标准、更快、更可靠的一站式平台。更标准:指的是积极拥抱开源社区的标准,采用了同一种标准的系列组件可以像"积木"一样可插拔;更快:指的是能够在秒级收到告警,告警后立即可以查询出故障节点及故障函数;更可靠:指的是任何时间系统都正常运行、任何错误都可以查询到,如果业务测同学查询不到想要的结果对于系统的信赖及信心都是毁灭性的。
-
可观测性:
-
指标:
-
链路:
-
日志:
4.故障自愈平台是什么?
-
利用算法实时分析立体化监控平台的多维数据,实现智能流量调度和自动止损。从人工处理到无人值守,打通整个流程闭环。故障自愈平台、可观测平台、故障演练平台是保证高可用的三把利剑。