SRE:Google运维解密(心得)

本文探讨了运维工程师如何控制和解决系统风险,指出过度追求可靠性可能会牺牲创新。书中提出,构建百分百可靠的系统并不经济,每个9的可用性提升都伴随着高昂成本。同时,错误预算是解决研发团队与可靠性团队关注点冲突的手段,允许一定量的不可靠性以平衡创新和稳定性。最后,强调公司在可用性与成本、用户体验与产品创新之间的权衡选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

SRE:Google运维解密(心得)

风险与可用性

在一个运行的系统中,出现风险是不可能避免的,而运维工程师的存着便是控制并解决风险。

书中提到构建百分百可靠的服务是不可取的,因为一个服务面向用户的不止是可靠,还有创新。当可靠性达到一定的数量级后,再花费大量的成本在可靠性上而忽略服务的创新,这种方式得不偿失。

书中还提到可用性为多少个‘9’这个概念
在这里插入图片描述
上面提到额外一个‘9’便是向100%可用性的数量级上的提高,但同样提高一个‘9’所花费的成本也是需要考虑的。

错误预算

指在服务在季度中可以接受多少不可靠性,允许出多少错。

错误预算出现的原因:(两个团队的关注点冲突)
在这里插入图片描述
其目的是平衡两个团队在关注点的冲突,给这个冲突提供一个缓冲区。
当这个缓冲区还未满时,研发可以提高创新速度。
当这个缓冲区快满时,研发就需要更多的考虑可靠性。

总结:

一个公司的最终目的便是盈利,在可用性和成本之间是需要一定的权衡。
用户对产品的体验也是需要在可靠性和创新之间权衡。
而用户对不同的产品敏感度也是不同的,在不同产品中的可靠性也需要权衡。
可靠性团队与创新团队的关注点冲突也需要权衡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值