场景主要介绍混沌工程的思想及其原理,体验故障演练(AHAS Chaos),阿里云在混沌工程领域的产品。,11 月 9 日至 11 月 23 日期间,,完成体验即可获得“TOMY 多美卡合金车模一辆”。
地址:https://developer.aliyun.com/adc/series/activity/1111
本场景涉及到以下技术或产品:
容器服务ACK:
容器服务Kubernetes版(简称ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理;是国内唯一入选2020年Gartner公共云容器报告的产品,并在2019年Forrester容器报告中获国内排名第一;整合了阿里云虚拟化、存储、网络和安全能力,助力企业高效运行云端Kubernetes容器化应用。
故障演练Chaos:
故障演练(Chaos)是云原生混沌工程平台,提供了大规模、低成本、影响可控、形式多样化的故障演练服务。Chaos提供一站式架构分析、故障巡检、故障注入、系统稳态度量等功能,帮助用户增强分布式系统的容错性和可恢复性,帮助系统平稳上云。
原理介绍
相信您一定有在新闻联播里看到过解放军某某兵团在某地进行军事实战演练的新闻,对于军队来说,最好的训练方式就是实兵演习。即使平时的训练已经已经非常系统和完善,但到了真正的实战中仍然可能会出现各种各样平时训练预想不到的问题。所以只有真正的实战演练才能发现问题,才能更好的规划下一阶段的训练,提高军队的战斗力。
面向失败设计
我们的软件系统不也是一样吗?“Everything fails, all the time.” 在平时的开发过程中,即使我们已经预想了各种各样的场景,修复好了所有的bug,但一旦上线总会出现各种各样的情况。我们的软件系统,同样也需要这样的实战演练。您需要在一开始的系统设计阶段就考虑到各种失败场景,把面向失败当成系统设计的一部分,并且准备好从失败中恢复的策略,这有助于更好地提升整个系统的可用性。只有您意识到事情会随着时间的推移而失败,并将这种思想融入到体系结构中,那么在失败发生的时候您才能完全不受影响或者将失败损失降到最低。
故障演练
混沌工程正是在这种面向失败设计思想下催生的。面对失败设计,要求我们提前为失败做好准备,但是我们准备的这些措施在故障真实发生时是否真的有效?恢复故障的工具是否实现了容灾?处理故障的人员是否熟练?这些问题,很难得到验证,却往往会在真实的故障中暴露出来。而这就是混沌工程的意义所在,混沌工程就像演习一样,通过有目的的制造故障,找出系统可能存在的弱点,从而验证在真实复杂的环境下,系统、人员应对各种突发问题的能力是否符合预期,提升系统的免疫能力。故障演练(Chaos)提供的正是这样的能力。
创建实验资源
阿里云提供ACK+Chaos云产品资源
4小时资源链接:
https://developer.aliyun.com/adc/scenario/e9b27357ab9c4785bc7f43fb62f872e3
安装探针
1回到容器服务控制台页面,单击左侧导航栏上方的< 图标。
2在集群列表页面的左侧导航栏中,单击应用目录。
3在应用目录页面,单击ack-ahas-pilot。
4在ack-ahas-pilot的详情页面,单击创建。
返回如下页面,表示探针已经部署完成。
通过架构感知查看系统整体架构
1复制应用高可用服务控制台地址,在Firefox浏览器打开新页签,粘贴并访问容器服务应用高可用服务控制台。
https://chaos.console.aliyun.com/
2在概览页面顶部,选择资源所在地域。例如下图中,地域切换为华东1(杭州)。
3在左侧导航栏,单击故障演练>架构感知。
4在架构地图页面,单击Kubernetes监控视图卡片中的查看视图。
5在架构地图页面,打开Kubernetes监控视图下拉列表,选择命令空间为default,然后单击确定即可查看实验资源的Kubernetes监控视图。
自动恢复场景演练
在分布式系统设计中有一种容错策略是故障恢复(failback),通过健康检查等机制,能在机器或者应用出现问题时自动的进行重新部署。我们利用Chaos进行故障演练,测试我们的系统是否具有这样的能力
1.进行稳态假设。定义一个稳态指标,来评估系统的健康状态并且在实施混沌过程当中进行监控和处理。
我们将稳态定义为 能访问我们的frontend界面,并正常使用各种购物车、下单等功能。
2模拟真实事件。
2.1 切换回应用高可用服务控制台。在左侧导航栏中,单击我的空间。
2.2 在我的空间页面,在新建演练下拉列表中单击新建空白演练。