《赵成的运维体系管理课》学习笔记(5)——故障管理

37 | 故障管理:谈谈我对故障的理解系统正常,只是改系统无数异常情况下的一种特例。Design for Failure:我们的目标和注意力不应该放在消除故障,或者不允许故障发生上,因为我们无法杜绝故障。所以,我们更应该考虑的是,怎么让系统更健壮,在一般的问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。故障永远只是表面现象,其背后技术和管理上的问题才是根因理解一个...
摘要由CSDN通过智能技术生成
37 | 故障管理:谈谈我对故障的理解

系统正常,只是改系统无数异常情况下的一种特例。

Design for Failure

我们的目标和注意力不应该放在消除故障,或者不允许故障发生上,因为我们无法杜绝故障。所以,我们更应该考虑的是,怎么让系统更健壮,在一般的问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。

故障永远只是表面现象,其背后技术和管理上的问题才是根因

理解一个系统应该如何工作并不能使人成为专家,只能靠调查系统为何不能正常工作才行。

强调技术解决问题,而不是单纯地靠增加管理流程和检查环节来解决问题,技术手段暂时无法满足的,可以靠管理手段来辅助。必须尽快将人为动作转化到技术平台中去。

38 | 故障管理:故障定级和定责

故障的定级标准

P0-P4, MTBF,MTTR,MTTF

故障的定责标准

变更执行,服务依赖,第三方责任

39 | 故障管理:鼓励做事,而不是处罚错误

关于定责和处罚

绝大多数的严重故障都是因为无意识或意识薄弱导致的,并不是因为单纯的技术能力不足等技术因素。

鼓励做事,而不是处罚错误

40 | 故障管理:故障应急和故障复盘</
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值