SRE Google运维解密第11章 on-call轮值

陌逸_逺

于 2019-09-14 15:09:52 发布

阅读量1.3k

点赞数

分类专栏： SRE Google运维解密

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hcode4/article/details/100828510

版权

SRE Google运维解密专栏收录该内容

4 篇文章

订阅专栏

On-call工程师承诺快速响应生产系统维护需求，面对紧急问题无论何时何地。他们需在分钟级别内响应，保障业务可靠性。on-call工作平衡关注质量和数量，确保工程师每月轮值一次，每季度不超过两个紧急事件。团队采用补贴措施、清晰的升级路线和自动化流程减轻压力，维持可持续的运维水平。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

on-call轮值

保证可以随时相应紧急问题，不管工作时间还是非工作时间

on-call 工程师的一天

on-call工程师承诺在分钟级别执行生产系统的维护需求，一般面向终端用户5分钟，非紧急30分钟。
响应时间与业务可靠性有关
收到报警信息，工程师必须ack,on-call 工程师即使定位并尝试解决问题，或可联系其他团队，或者升级请求支援
有主on-call 和副on-call ，相辅相成

on-call工作平衡

on-call 工作质量和数量有明确的要求，数量是某个工程师在on-call 事务上花费的具体时间，质量通过每次on-call轮值发生的事故数量决定

数量上保持平和

SRE 规定25%为上限，每次轮值需要两名工程师，7*24 on-call轮值制度至少需要8名工程师，每次on-call 值班长度为1周，每名工程师只需要每月轮值一次

质量上保持平衡

每12小时的轮值周期内最大发生两个紧急事件（每个紧急事件处理需要6小时），如果一个季度不断超过这个界限，需要采取修正措施将运维压力降到可持续水平

补贴措施

安全感

理性，专注，有意识地进行人之类活动
缓解on-call 压力资源
1. 清晰的问题升级路线
2. 清晰定义的应急事件处理步骤
3. 无指责，对事不对人的文化氛围
启动正式的应急事务处理流程，自动化大部分操作，可以专注于解决问题
进行评估，书写事后报告，详细记录所有事件发生的时间线

避免运维压力过大

运维压力过大

从其他团队临时抽调有经验的SRE
运维压力过载量化，如处理的工单数<5，每次轮值报警事件<2
每条报警有实际操作性，低优先级报警忽略
分组汇总报警，禁止重复无关报警，修改重报警
SRE与研发团队一起努力
停止支持某个服务，该服务由开发人员负责on-call 轮值

奸诈的敌人——运维压力不够

系统太稳定会导致信心问题
控制SRE团队大小，保证每个工程师每个季度参与oncall 一次，最好两次
Google每年举办一次持续数天的全公司灾难恢复演习（DiRT）针对理论性和实际性的灾难进行演练

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。