网络故障排除
网络故障排除方法
1. 网络故障概述
(1)定义:
网络故障是指由于某种原因而使网络丧失规定功能并影响业务的现象。
从用户的角度出发,凡是影响业务的现象都可以定义为故障。
(2)常见的故障现象:
告警、环路、业务不通、业务中断、业务瞬断、丢包、协议异常、协议振荡、路由异常等;
(3)故障分类:
硬件类、配置类、网络类、性能问题、软件类、对接类、其它等;
2. 结构化的故障排除流程
(1)报告故障:
主动沟通确认:故障报告者、故障频率、用户操作等
(2)确认故障:
四个要素——主体、表现、时间、位置,对故障进行准确的描述,确认是否属于自己的复杂范围
(3)收集信息:
收集哪些信息、如何收集、获取授权、风险评估
(4)判断分析:
通过对信息的汇总,进行综合的判断和分析,得出故障的原因列表
(5)原因列表:
列出可能原因然后进行信息过滤,最后列出最可能的原因
(6)故障评估:
在逐一排查前进行,可能需要搭建临时的网络环境
(7)逐一排查:
应该明确告知用户排查工作可能带来的风险,并在得到许可的情况下才能执行操作
(8)解决故障:
故障现象消失后仍然需要观察一段时间,一方面确认用户报告的故障已经得到了解决,另一方面确认故障排除的过程中没有引入新的故障
(9)收尾工作:
包括相关文档的整理、信息的通告等
3. 网络故障排除的核心思想和方法
(1)核心思想:以业务流量路径为核心
确认业务流量路径:
网络层——根据报文转发过程,确认业务流量的传输路径
数据链路层——确认业务流量对应的数据帧在二层网络环境中是如何被交换机转发的
(2)方法:
1)分层故障处理法:从参考模型自底向上进行故障排查
2)对比配置法:对比正常状态与故障状态下的配置、软件版本、硬件型号等内容,检查两者之间的差异
3)分块故障处理法:管理、端口、路由协议、策略、接入、其它应用等
4)分段故障处理法:
5)替换法
(3)对运维人员的要求:
1)对协议要求有精深的理解。
2)能够引导客户详细描述出故障现象和相关信息。
3)充分了解自己所管理和维护的网络。
4)及时进行故障处理的文档记录和经验总结。
5)熟悉网络故障排除的方法,将多种方法结合使用。