从研发效能的视角谈“故障复盘”

转自茹炳晟的《从研发效能的视角谈“故障复盘”》

本文核心观点:

  • 团队的复盘能力有多强,决定了团队的进步空间有多大
  • 复杂系统的高网络密度和强耦合性是造成故障无法完全避免的罪魁祸首
  • 故障是表象,背后技术和管理上的问题才是根因
  • 可以包容失败,但是不允许犯错
  • 不“浪费(忽视)”任何一个失误
  • 不能以唯一根因为导向来复盘
  • 避免将故障归因于外部客观原因

在企业业务价值的交付过程中,故障是很难避免的,所以对企业来讲故障复盘是一项关键核心能力,今天我就从研发效能的视角来系统性地聊一聊。

1. 谈故障复盘前,先来看看航空业的安全性

也许很多人知道,飞机是目前为止最安全的交通工具,但是早期飞机的安全性非常差,美国航空学校学员的死亡率曾经一度高达25%,而现在全世界每年因为空难死亡的人数大概只有三四百人。举个例子,如果有人需要每天坐一次飞机,那么大概3200多年才会遇上一次空难。这么巨大的安全能力飞跃,是在不到几十年的时间就完成了的,问题是这样的突破是如何被实现的呢?答案是黑匣子。黑匣子(如图)简单说就是一个记录工具,由飞行数据记录器(FDR)和驾驶舱话音记录器(CVR)两部分组成,用来记录飞机在飞行过程中的各种参数,如飞行时间、速度、高度、飞机倾斜度、发动机转速及温度等,以及飞行员与乘务人员和各个塔台之间的对话等。如果一架飞机不幸遭遇事故,通过黑匣子就可以判断当时驾驶舱内飞行员所面临的情况,帮助人们分析事故发生的原因。更为重要的是,对于每一次的事故分析都会做到系统性和全面性,并把发现的所有潜在问题和风险都逐一解决,不留任何死角,保证发生过的问题往后绝对不会再发生,也就是所谓的“不二过"。正是由于这样的系统化机制,飞机在较短的时间里成为了最安全的交通工具。

8bf78deb64ab45fc816346cc494053a7.jpeg
format,png

图:民航飞机的黑匣子飞行员的行为准则里有很多看似奇葩的规定,其实都是由事故作为依据而制定出来的。比如国际民航组织就规定飞行员在工作中必须说英语,这是为了防止像日语和韩语中的存在敬语可能影响机长的判断;再比如机长和副机长必须吃不同的人准备的不同种类食物,并且吃饭间隔时间必须要30分钟以上,这是为了防止可能的食物中毒;这些事件都在之前的航空史上真实发生过,可以说都是血和泪的教训。我举这些例子其实是想说,很多潜在的风险和问题由于过于隐蔽和低概率,如果靠凭空想象出来是非常困难的,航空业能想到这么细致的原因,不是因为他们想象力丰富,而是能够及时把过去曾经发生过的错误,最大程度转化为未来可以小心和避免的方法,这类行为其实就是我们今天要重点讨论的故障复盘。

2. 复杂系统故障的特点

通俗来讲,软件系统的故障是指系统没有遵守预先设计的工作模式。今天大量的软件系统俨然已经是个庞大的复杂系统,复杂系统故障具有两个特点。一是“小错误”的威力巨大,二是技术越先进故障越多。复杂系统的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值