SRE Google运维解密_读书笔记1

  1. 监控的4个黄金指标:错误、延迟、流量、饱和度(容量)。
  2. SLO服务水平目标,健康度检测使用
  3. 运维平台:
  1. 关于应急管理时,有没有考虑过通过一键触发的方式,将当前紧急情况通过内部通讯工具、邮件、短信等渠道触达到系统相关人。这样可以实时看到当前系统处理情况,调配各种资源协助,根据故障情况决定是否升级保障,记录整个应急处理各时间点的过程,也便于编写事后总结报告。当前应急处理时大家忙于处理问题,内部通讯工具里的信息不能及时反映当前状态,缺少有序管理的机制。
  2. 主备岗交接机制,借助自动化服务平台,将升级流程固化,降低学习成本。
  3. 以系统为维度,将相关机器管理起来,管理主备岗运维操作机的登录权限。
  1. 研发参与on-call
    1. 研发人员也参与运维on-call值班,或者出现业务设计不合理引发的bug,需要运维人员每日大量的手工处理,提高业务需求开发响应速度。
    2. 运维开发人员也参与运维on-call值班,可以发现运维的痛点,提高运维需求的响应速度。
  2. 生产问题Jira工单:
  3. 通过Jira记录生产问题,通过5Y(what何事?why为什么?when何时?where何地?who关系谁?)分析问题原因,跟踪问题解决进展。
  4. 事故报告,做的好的地方,不好的地方,从中学到了什么?
  5. 通过一个wiki生产问题自定义流程,过滤出Jira
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值