【翻译】为什么你现在比以往更需要混沌工程?

混沌工程通过模拟故障来提升系统弹性和可靠性。随着远程工作的普及,系统故障的影响更加显著,混沌工程变得至关重要。它涉及在系统中进行有计划的实验,暴露潜在弱点。这种做法已被Netflix等公司采用,通过工具如Chaos Monkey测试系统韧性。实施混沌工程需要建立一种文化,强调沟通、实验和复原力的培养,同时逐步在非生产环境和生产环境中进行实验。混沌工程的应用包括监控验证、资源饥饿测试和依赖性分析,帮助企业提前发现和解决潜在问题。
摘要由CSDN通过智能技术生成

大约一年前,像餐馆和杂货店这样的实体店正争先恐后地设置送货和路边取货。他们中的很多人都在生产中使用混乱工程,在推出新功能和服务之前迅速寻找失败的原因。教育平台也是如此,在短短一周的时间里,从 "好的 "变成了 "绝对必要"。

企业混沌工程平台 Gremlin的首席网站可靠性工程师Tammy Bryant Bütow表示,大流行病的紧迫性克服了很多对采用混沌思维的不情愿。另外,她在一次采访中指出,因为现在人们更多的是在家里,如果出现故障,他们会更快地发推特。因此,这是一种混合的责任感,即以以前预见的规模提供服务,也是一种面子行为。

团队终于明白,混乱工程是必不可少的,以便为不可预见的情况做计划,并满足流量和用户的高峰(如组织在2020年经历的)。但什么是混沌工程,你如何说服你的团队接受它?

混沌工程是什么?

混沌工程是由Netflix命名的,以唤起调皮的猴子向你的系统扔东西的想法。因为没有什么比一桶猴子被放出来更不可预测的了--也许,除了分布式系统。

十多年来,开源的 Chaos Monkey一直在随机地终止生产中的实例,以测试你的系统是否真的有弹性,当那传说中的狗屎击中那传说中的风扇时。

从那时起,一大批混沌工程工具就出现了。我们已经看到了一个运营角色的出现--网站可靠性工程师,或称SRE--专门负责寻找和自动修复我们系统中的故障。SRE是一个50/50的混合体,当事情出错时随叫随到,并进行实验以找到隐藏的漏洞。

混沌工程是科学和智能创造力的独特组合,旨在大规模地提高系统的可靠性。

正如Bryan

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值