读书笔记(SRE:Google运维解密):第11章 on-call轮值

  • 作为生产系统的监管者,on-call工程师负责处理生产环境中即将或者正在发生的业务事故,以及评审对生产系统的变更请求。
     
  • 紧急事件(incident)的定义是:一系列根本原因一致或者相关的事件和报警信息,这些事件应该在同一个事后报告中讨论
     
  • 现代理论研究指出,在面临挑战时,一个人会主动或非主动(潜意识)地选择下列两种处理方法之一:
    (a)依赖直觉,自动化、快速行动。
    (b)理性、专注、有意识地进行认知类活动。
     
  • 在应急事件处理过程中,最理想的方法论是这样的:在有足够数据支撑的时候按步骤解决问题,同时不停地审视和验证目前所有的假设。
     
  • 让on-call SRE知道他们可以寻求外部帮助,对减轻on-call压力也很有帮助。最重要的资源有:
    (a)清晰的问题升级路线。
    (b)清晰定义的应急事件处理步骤。
    (c)无指责,对事不对人的文化氛围
     
  • 虽然给一个非常安静的系统on-call值班是很幸福的事情,但是当一个系统太稳定,或者SRE on-call的周期太长会发生什么呢?SRE团队运维压力不够也是一个不良现象。长时间不操作生产环境会导致自信心问题,包括自信心太强以及自信心不够。这些现象只有在下一次发生问题时,才会显现出来。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值