故障排除
 
掌握网络故障排除一般步骤
掌握常用故障诊断工具
掌握斐讯网络产品故障排除常用方法
 
 
故障排除综述
网 络 现 状
支持包括数据、音频和视频集成传输的综合应用;
新技术不断出现;
现代网络与传统网络的共存。
 
网络故障一般分类
连通性问题
硬件、媒介、电源故障;
配置错误;
设备兼容性问题。
性能问题
网络拥塞;
到目的地不是最佳路由;
供电不足;
路由环路;
网络不稳定。
 
网络故障排除基本步骤
 
案例:广播流量引起的FTP 业务问题
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 


 

10.11.56.0为一个用户网段;10.11.56.118为一个日志服务器;10.15.0.0是一个集中了很多应用服务器的网段。
用户反映:日志服务器与10.15.0.0/16网段的备份服务器间备份发生问题
 
 
故障现象描述
如何描述故障现象
这个问题是连续出现,还是间断出现的?
是完全不能备份,还是备份的速度慢(即性能下降)?
哪个或哪些局域网服务器受到影响,地址是什么?
正确故障描述
在网络的高峰期,日志服务器10.11.56.11到集中备份服务器10.15.254.253之间进行备份时,FTP传输速度很慢,大约是0.6Mbps。
 
故障相关信息收集
信息收集途径
向受影响的用户、网络人员或其他关键人员提出问题;
根据故障描述性质,使用各种工具搜集情况,如网络管理系统、协议分析仪、相关 show 和 debug 信息等;
测试性能与网络基线进行比较。
收集到以下信息
最近10.11.56.0网段的客户机不断在增加;
129.9.0.0网段的机器与备份服务器间进行FTP传输时速度正常为7Mbps,与日志服务器间进行FTP传输时速度慢,只有0.6Mbps;
在非高峰期日志服务器和备份服务器间FTP传输速度正常,大约为6Mbps。
 
 
各种可能原因列表
日志服务器A的性能问题;
10.11.56.0网络的网关性能问题;
10.11.56.0网络本身的性能问题;
网云性能问题。
 
 
对每一原因实施排错方案;
观察故障排除结果;
循环进行故障排除过程:
当针对某一可能原因的排错方案没有达到预期目的,循环进入下一可能原因制定排错方案并实施;
当所有可能原因列表的排错方案均没有达到排错目的,重现进行故障相关信息收集以分析新的可能原因。
案例可能故障循环分析
定位故障:最近大量用户加入导致网段10.11.56.0上广播包过多;
排除故障:把日志服务器移到10.15.0.0/16网段。
 
故障排除过程文档化
故障现象描述及收集的相关信息;
网络拓扑图绘制;
网络中使用的设备清单;
网络设备的配置清单;
故障发生的可能原因;
对每一可能原因制定的方案和实施结果;
本次排错的心得体会;
其他:如排错中使用的参考资料列表等。
 
网络设备故障诊断主要有以下命令:
ping
tracert
show
debug
 
Ping命令简介
网络设备平台的ping命令
Windows平台的ping命令
 
基础知识
ICMP-Internet Control Message Protocol
ICMP处于OSI的L3网络层,设计用于为网络管理人员的维护和排障工作提供必要且便利的信息
参阅ICMP的报文结构:根据Type类型码可以将ICMP分为Echo、Unreachable、TTL exceed、Redirect等多种。当Type=8时,为Echo Req报文,Type=0时,为Reply报文
 
ICMP – Internet Control Message Protocol,处于OSI-7的第三层,即网络层。
其设立的主要目的是为网络管理人员的维护和排障提供必要的消息。
我们在网络基础的内容中学习过,ICMP还可以根据其操作码OP code分为很多种类,常见的如:ECHO、Unreachable、TTL exceed、Redirect等,但其中用的最多的就是ECHO。
ECHO可分为ECHO request和ECHO reply。
我们后面要介绍的两种探测类网络工具都与此有关。
ICMP Header解析:
Type:类型
         取值为0或者8,分别代表ECHO和ECHO reply报文;
Code:操作码
         取值0;
Identifier:识别码
Sequence Number:序列号
         当code=0时,识别码和序列号用于协助ECHO和ECHO reply的匹配;
         ECHO发送时,identifier中的值,将用于匹配ECHO reply报文中的值;而序列号是用于区分多组ECHO和ECHO reply的。
Data:数据
         ECHO的填充数据字段。通常ECHO的data将被用于填充在ECHO reply报文的data字段中;
 
 
PING
ICMP是一套网络层的协议/标准
Ping是一个应用程序,借助了ICMP中的Echo报文,用以探测IP网络中某主机是否可达
Ping的基本工作原理(Echo Req+Echo Reply)
 
ICMP是网络控制消息协议,是一个标准。
其opcode=8时,就是ECHO request报文,opcode=0时,就是ECHO reply报文。
PING是一个具体的应用程序;Ping是一个象声词,来源于海洋声纳探测操作。
它借用了ECHO报文的格式,以request来探测目标ip地址/网络的可达性,如果收到了对应的reply,则认为对方可达。即ping探测成功。
 
 
PING 的输出信息
在网络设备上,ping的结果很多都是使用字母和标点来表示的,常见的有如下几种
!!!!!
         表示echo和echo reply完全正常,ping成功
......
         表示timeout超时,reply没有在规定时间内返回;也有可能Echo没有正常发出;也可能目标不存在
TTTTT
         表示TTL超时,icmp报文在转发过程中变成0了
UUUUU
         Unreachable,当内ping设备没有相关的路由时,通常回返回目标不可达信息
 
注意:
注:ping不是万能的。Ping不通,并不说明网络不通;ping的通,也不一定说明网络可用。
 
 
Tracert命令简介
网络设备平台的tracert命令
Windows平台的tracert命令
 
 
 
 
 
 
show命令
show version
show running-config
show task/cpu
Show ip int brief
show interface
 
 
 
Show interface
n # sho int s1/0 :0
Serial 1/0:0is up, line protocol is down   
n    Mode=Async Speed=9600
n     DTR=UP,DSR=DOWN,RTS=UP,CTS=DOWN,DCD=DOWN  
    MTU 1500 bytes, BW 9 kbit, DLY 10000 usec 
n     Encapsulation PPP, loopback not set 
n     Keepalive set(10 sec)
n     LCP Listening -- waiting for remote host to attempt open
n     60 second input rate 0 bits/sec, 0 packets/sec!  
   60 second output rate 0 bits/sec, 0 packets/sec!   
        0 packets input, 0 bytes, 8 unused_rx, 0 no buffer
n         0 input errors, 0 Parity, 0 frame, 0 overrun    
n         0 packets output, 0 bytes, 8 unused_tx, 0 underruns 
n     error:  
       0 clock, 0 grace
 
DCD(Data Carrier Detect 数据载波检测),主要用于Modem通知计算机其处于在线状态,即Modem检测到拨号音, 处于在线状态。
DTR(Data Terminal Ready,数据终端准备好) ,当此引脚高电平时,通知Modem可以进行数据传输,计算机已经准备好。
DSR(Data Set Ready 数据准备好) ,此引脚高电平时,通知计算机Modem已经准备好,可以进行数据通讯了。
RTS(Request To Send 请求发送) ,此脚有计算机来控制,用以通知Modem马上传送数据至计算机;否则,Modem将收到的数据暂时放入缓冲区中。
CTS(Clear To Send 清除发送),此脚由Modem控制,用以通知计算机将欲传的数据送至Modem。
在这五个控制信号中,DTR和RTS是DTE设备(数据终端设备,在实际应用中就是路由器)发出的,DSR、CTS和DCD是DCE设备(数据电路终结设备,在实际中就是各种基带MODEM)发出的。
Debug
 
debug命令概述
获得路由器中交换的报文和帧的细节信息
Debug不同应用的交互过程
debug命令使用注意事项
不使用debug命令监控正常的网络运行
在网络使用的低峰期使用
在没有完全掌握某debug命令的工作过程以及它所提供的信息前,慎重使用该debug命令
使用debug命令 后,应立即以“no debug all”命令终止debug的执行。
show和debug命令配合使用   
 
 
 
故障排除常用方法
 
分层故障排除法
 
分块故障排除法
管理部分(路由器名称、口令、服务、日志等)
端口部分(地址、封装、vrrp、速率、认证等)
路由协议部分(静态路由、RIP、OSPF、BGP、路由引入等)
策略部分(路由策略、策略路由、安全配置等)
接入部分(主控制台、Telnet登录或哑终端、拨号等)
其他应用部分(×××配置、Qos配置等)
 
 
分段故障排除法
网络分为若干段,逐段测试,缩小故障范围,逐段定位网络故障,并排除。
 
 
 
 
 
 
 
 
 
 
 


 

替换法
 
当网络拓扑中的某个设备疑似发生故障的情况下,可以通过替换法来观察是否是设备的硬件故障。
注意:
替换法最好用自己的设备进行。可同一型号,也可不同型号。
 
排错基本方法
硬件
我们应该检查些什么?
各种指示灯状态
启动信息
通过SHOW命令查看硬件的信息
查看错误消息提示
查看LOG文件
查看发布的版本情况
什么会导致硬件问题?
硬件质量
不正确的操作
真正的硬件问题是有规律而且现象是固定的.
 
软件
不正确的设置
没有正确的理解命令参数的含义
e.g. ip address 10.1.1.0 255.255.255.0
参考show命令
通过分析缩小你的观察范围并通过show和debug命令
捕捉正确的信息,然后进行分析并解决
软件代码问题
通过相关命令查看CPU,MEMORY,INTERFACE等状态
debug ip packet,debug ip icmp…
查看是否为发布的最新正式版本
如果是临时版本,查看相应临时版本发布功能的说明,确认是否可以解决当前出现的问题; 如果不能确定,请联系产品经理
 
 
 
对技术人员的要求
充分了解所管理和维护的网络
网络拓扑、物理拓扑
网络使用的各种技术,包括局域网技术、广域网技术、路由协议、网络安全技术、QoS等等
网络运行业务总类
流量分布
最近网络变化情况
网络测试基线(参照法)
及时进行故障排除的文档记录和经验总结