读书笔记(SRE:Google运维解密):第12章 有效的故障排查手段

  • 新手们常常不能有效地进行故障排查,是因为这个过程理想情况下同时需要两个条件。
    (a)对通用的故障排查过程的理解(不依靠任何特定系统)。
    (b)对发生故障的系统的足够了解。
  • 通用的故障排查流程在这里插入图片描述
    从理论上讲,我们将故障排查过程定义为反复采用假设-排除手段的过程:针对某系统的一些观察结果和对该系统运行机制的理论认知,我们不断提出一个造成系统问题的假设,进而针对这些假设进行测试和排除。

造成低效的故障排查过程的原因通常集中在定位(triage)、检查和诊断环节上,主要由于对系统不够了解而导致。

 

  • 常见陷阱:
    (a)关注了错误的系统现象,或者错误地理解了系统现象的含义。这样会在错误的方向上浪费时间。
    (b)不能正确修改系统的配置信息、输入信息或者系统运行环境,造成不能安全和有效地测试假设。
    (c)将问题过早地归结为极为不可能的因素(例如认为是宇宙射线造成数据变化,虽然有可能发生,但是并不应该在解决问题初期做这个假设),或者念念不忘之前曾经发生过的系统问题,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值