故障复盘

序言

   故障的定义有很多种,一般都是根据业务来进行定义故障等级,对于大大小小的故障,你会采取什么样的态度?


    是让故障飞一会儿呢?还是让故障再浪一浪。。


    在生产环境中,一般定义为工单,事件,告警,故障。。。。如果你每天的生活都当成是一个故障,你该怎么复盘?从而更好的改进。。。


    你可以认为。。。我认识你这就是一个故障,或许。。。你看这篇文章它也是一个故障。。。


让故障再浪一会儿。。。

   故障复盘,说的好听点,那就是故障复盘,是为了改进,是为了进步,是为了适应变化;说的不好听,那就是撕逼。。。那就是甩锅。。


    一般的人面对故障,总有那么几类的反映:

    1 甩锅,推卸责任,从来不反思自身,偷偷进行改变,以为天衣无缝

    2 反省自身,勇于暴露自身的缺点,接受批评,勇于改进

    3 共赢局面,我反思自身问题,你反思你的问题,一个大锅每个人分分,改进工作机制,追查本质原因,优化,优化,再优化


    在进行故障复盘的时候,进行故障报告,汇总所有的细节,汇总所有的时间点,找出根本原因,给出解决的方法,找到后续的优化途径。。。


    在进行故障汇报的时候,最关键的点在于要暴露所有的细节,细节,细节,无论对与不对,都要进行暴露,都要进行追问,为什么响应速度那么慢?是因为没发现还是因为告警不及时。。。为什么定位问题那么慢?是因为缺少故障的表象?是因为缺少报错信息,因为什么?


    在进行故障总结的时候,要抓住关键的点,分析问题的思路,例如定位DNS是否有问题,使用ping来解析域名,看看是否能解析到IP地址。。。定位SLB的问题,使用telnet来查看端口是否通顺。。。在定位网络问题的时候,使用ping来查看是否有丢包。。。关键的点在于:根据什么现象定位到这个问题的本质,例如容器无法创建成功,查看日志的时候,发现大量的pull error,那么就可以定位为容器的registry挂了。


    其实以上的都好玩,好玩的撕逼的过程,在每次撕逼的时候,总是有人要跳出来,这个故障和我没关系。。。这个故障与我无关。。。当你想逃避责任的时候,那你就沉不住气了,既然你参与了这个故障,你说和你没关系。。。和你没关系,你说个毛呢。。。此地无银三百两。。。。沉不住气的人总是要承受更多的伤害。。。当你玩游戏的时候,你心态爆炸。。那你就输了。。。


    平常心。。。心态爆炸的时候,你就是在召唤魔鬼,虽然攻击力大大增加,但是伤人伤己。。。损耗自身精血而完成致命一击。。。不好不好。。。


640?wx_fmt=png


    站在一个更高的层面思考故障复盘,其实出现故障怕什么!!!我就问你怕什么。。。时光能倒流?故障不发生了???假如修复了这个BUG,这个故障就没有了???。。。。不幸运的是,时光不能倒流,生活也没有那么多的假如,也没有那么多的假设。。。


    既然出了故障,那就做好以下几步即可:

    1、 搞清楚故障的更本原因,是因为告警机制没做好?还是人员的疏忽?到底是因为什么,需要首先搞清楚。

    2、 找到了根本原因,那么如何进行优化?如果是人员的疏忽,那么告警能不能间隔一分钟发送一次?如果十分钟没有响应,是否可以告警升级?如果是BUG问题,一次性修复是否OK?如果是BUG问题,其他相同类的组件模块,其他相同类的项目有没有相同的BUG。

    

    对于故障的意识就是:故障本身不是好事,但是既然出了,就说明某些地方没有做好,那么就进行改进,伟大的产品就是这样慢慢的铸造而成。面对问题不要怂。。。站起来就好了,不要被问题打倒。。。一个华丽的转身,老夫又回来了。。。但是。。。不要一个转身,脸黑了。。。

闲扯

   1、 你为什么不能接触到牛逼的人?


    生活在一个小圈子内,感觉是一个井底之蛙,那么为什么看不到比你高一个等级或者几个等级的王者存在。。。

    

    为什么你接触不到呢?因为王者都在猥琐低调的发育,哪里会有时间到处浪啊浪。。。浪的太多,只是耗费了自己发育的时间。


    2、 目标


    很多东西感觉都是一个循环,绕来绕去都绕不过目标这个话题。。。


    故障复盘也好,也只是一种事后诸葛亮。。。更多的应该是故障演练,无限的演练,无限的模拟线上环境,设想。。。无限的接近成功,无限的接近完美。。。


    那么,如果你没有目标。。何来无限接近。。。。这。。是一个死循环。。。


640?wx_fmt=png


    如果每天的生活,每天的工作都是一个故障。。。那么怎么复盘。。。

    听别人的各种废话,浪费几个小时。。。准备工作浪费几个小时。。。思考如何去做浪费几个小时。。。参加会议浪费几个小时。。。一天有几个小时。。如何简化。。。如何达到自己想要的生活????


    如果这些都是在浪费时间,如果你在看完这篇文章的时候也是在浪费时间。。。那么你想干嘛?那么你的目标是啥。。。好了,该去思考人生了。。。要去进行故障复盘了。。。


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值