运维故障管理的那些事

本文不讲具体规范,只粗粗说一下故障管理的那些事

首先我们需要明白一个道理,运维中涉及的设备或系统一定会出现故障的,只是时间的问题。
事情有轻重缓急,故障也一样,第一步也是最重要的先对故障进行分级,根据故障的影响范围或系统的重要性可将故障分为一般故障,重要故障,严重故障;每个公司根据自己业务后
系统的不同进行分级,找到符合自己公司的处理办法
故障处理的第一步就是故障发现和提报,这一步很关键,因为如果故障没有及时发现可能会照成更大的影响,引起更大的故障。当然如果是一个误报,但是运维工程师没有很好的识别就处理,可能会照成人为二次时间;这一点运维工程师需要有能力对故障进行识别,按照以上的定义对故障进行分级;
分级完成后下一步就是故障的处理,原则上运维工程师需在两个小时内完成运维故障的识别,分级(严重的需及时通知同步至领导及受影响的人员),和处理方案的确认。条件允许的情况下处理方案需要至少两个工程师确认,确认无误后,一般故障直接处理。重要或严重故障方案由领导同意后一人监督一人操作的情况下进行;
如果运维工程师不能对故障进行分级或方案判断,应及时将相关信息同步至主管和整个运维团队,尤其是影响比较大的重要或严重故障,需要及时响应,但是不能擅自操作,同步信息,随时待命。
对于重大故障的处理需要充分利用团队协作,各司其职。避免信息的不同步照成的二次故障,一般重要故障的处理负责人,负责故障信息的同步(必要时需在信息发布平台及时同步故障进展),人员组织。故障处理人,按照负责人安排对故障进行处理。监督记录人,监督和记录故障处理的过程;
以上说的了故障处理的过程,最后一点说一下事后总结,我们要充分利用在失败中总结出的东西,形成公司只有的知识库。事后总结的内容可包括:故障时间,故障现象,故障影响,故障原因,处理人,故障处理步骤(详细记录故障处理过程中关键时间点和关键人的一些操作),事后总结(改善建立);
有了完善的记录,我们才可以去总结一些东西,对从根本上去避免或减少一些故障的发生提供了依据,有了数据你明白有些问题不可怕,一切会好的。
愿你的运维人生路越走越好!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值