成因总结

1.网络链路:松动、断路、硬件损坏
2.配置文件:设置不当或丢失
3.网络协议:协议错误或失效
4.网络服务:服务停止、拒绝或崩溃
2.3.4为人为故障

 

 

Step1:准备工作

?笔和专用记载本:观察和记载你所看到的每一个重要细节!管理员必备的素质!
?运维对象的配置,包括拓朴、协议和配置
?必要的工具

 

Step2:排除伪故障干扰

?与系统正常运行时相比, 究竟出现了什么样的异常情况?
?故障出现前系统运行过新的进程或业务吗?
?是否有未记载的人为更改系统配置的行为?

 

Step3:描述故障现象

?监督用户重复操作,仔细聆听用户叙述,记录现场交流信息;
?网管亲自操作,记录所有与故障相关的错误提示信息;
?整理笔记,保留客观资料,不匆忙下结论!

 

Step4:确定范围,列举可能导致错误的原因

?不去试图一次定位故障的原因;
?列举并记载所有可能导致故障发生的原因;
?把可能的原因按优先级排列;

 

Step5:故障测试,缩小范围

?按step4圈定范围逐一测试,不要因为暂时的排除而中断测试,记载所有信息;
?测试方法的优先级:参考实例法、硬件替换法、错误测试法(工具、命令);
?辅助方法:查看服务器日志、查看设备的LED指示灯、查看网管软件的设备状态。

 

Step6:隔离并排除错误

?根据step5的测试结果,隔离故障,暂停故障区域的业务;
?采取相应措施,排除故障并记载过程;
?恢复系统正常业务。

 

Step7:总结(非常重要!)

?记载并保存所有资料,归纳处理的方法;
?总结错误原因,制定对策,避免重复发生。