各位运维人员都要处理故障,那大家觉得有没有必要把故障的“量”定义出来哪?

现阶段是无论出现多少故障,我们的内部/外部客户都觉得故障太多,而我凭感觉总觉得自己已经尽力做好了。

如果我们运维水平符合某个标准则某月的工作就是合格,不符合某个标准就是工作不合格,这样多好?

于是我就做一个运维积分计划,通过这个积分计划,我从客户感受的角度把每月的故障率用积分数字统计出来。如果当月积分比上月积分低,那就说明本月比上月平台稳定性有改善;如果我们跟客户约定每月积分不超过100分则为合格,那他们也就没必要在每次小故障后都特别敏感特别激动了。