37 | 故障管理:谈谈我对故障的理解
系统正常,只是改系统无数异常情况下的一种特例。
Design for Failure:
我们的目标和注意力不应该放在消除故障,或者不允许故障发生上,因为我们无法杜绝故障。所以,我们更应该考虑的是,怎么让系统更健壮,在一般的问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。
故障永远只是表面现象,其背后技术和管理上的问题才是根因
理解一个系统应该如何工作并不能使人成为专家,只能靠调查系统为何不能正常工作才行。
强调技术解决问题,而不是单纯地靠增加管理流程和检查环节来解决问题,技术手段暂时无法满足的,可以靠管理手段来辅助。必须尽快将人为动作转化到技术平台中去。
38 | 故障管理:故障定级和定责
故障的定级标准
P0-P4, MTBF,MTTR,MTTF
故障的定责标准
变更执行,服务依赖,第三方责任
39 | 故障管理:鼓励做事,而不是处罚错误
关于定责和处罚
绝大多数的严重故障都是因为无意识或意识薄弱导致的,并不是因为单纯的技术能力不足等技术因素。
鼓励做事,而不是处罚错误