面对系统发生错误时会将经验作为催化剂来识别具体的故障(故障状态),进行因果推理、评估;系统出了问题不可怕,可怕的是以后还会出现类似的问题,这就比较尴尬了,不能将问题“釜底抽薪”,刨根问底,研究透,并有相应措施应对,那么这个系统也就废了。基于我们平台,从发现问题,解决问题,预防问题来侧面理解下“失败设计”。
从技术层面
从平台平常出现的bug,无论大小,我们大多数都是看着问题先解决,有的解决起来快,有的可能需要花费些时间,但最终我们都解决了,心里长舒一口气,有时候内心也许还会冒出“爷真机智,这问题都解决了”。可是然后呢?接着解决下一个问题,可是如果我们每天或者每周都记录下我们遇到的问题,然后在固定的时候,自己总结下,或许收获真的不少。
就拿这次上线的问题来说,一个发送邮件的服务突然爆了,每分钟不停的发邮件(在此之前,还出现过一晚上十几万封邮件的发出,结果直接导致公司邮件服务崩溃,整个公司邮箱不能用了,此刻本人很崩溃,那时候也认真思考过)。这次又发生这样的问题,就不得重新认真思考后续发布上线,怎么预防类似问题重复发生了。
小小记录下。。。。。。