成因总结
1.网络链路:松动、断路、硬件损坏
2.配置文件:设置不当或丢失
3.网络协议:协议错误或失效
4.网络服务:服务停止、拒绝或崩溃
2.3.4为人为故障
Step1:准备工作
?笔和专用记载本:观察和记载你所看到的每一个重要细节!管理员必备的素质!
?运维对象的配置,包括拓朴、协议和配置
?必要的工具
Step2:排除伪故障干扰
?与系统正常运行时相比, 究竟出现了什么样的异常情况?
?故障出现前系统运行过新的进程或业务吗?
?是否有未记载的人为更改系统配置的行为?
Step3:描述故障现象
?监督用户重复操作,仔细聆听用户叙述,记录现场交流信息;
?网管亲自操作,记录所有与故障相关的错误提示信息;
?整理笔记,保留客观资料,不匆忙下结论!
Step4:确定范围,列举可能导致错误的原因
?不去试图一次定位故障的原因;
?列举并记载所有可能导致故障发生的原因;
?把可能的原因按优先级排列;
Step5:故障测试,缩小范围
?按step4圈定范围逐一测试,不要因为暂时的排除而中断测试,记载所有信息;
?测试方法的优先级:参考实例法、硬件替换法、错误测试法(工具、命令);
?辅助方法:查看服务器日志、查看设备的LED指示灯、查看网管软件的设备状态。
Step6:隔离并排除错误
?根据step5的测试结果,隔离故障,暂停故障区域的业务;
?采取相应措施,排除故障并记载过程;
?恢复系统正常业务。
Step7:总结(非常重要!)
?记载并保存所有资料,归纳处理的方法;
?总结错误原因,制定对策,避免重复发生。
转载于:https://blog.51cto.com/monalisa/1038763