故障环境


  说明:

    1 、办公机器都属于10.12.128.0/24网段;

    2 、办公机器通过一个二层的接入交换机、光电转换器接入集团核心交换机。

    故障现象

    ●Ping 大包丢包严重
    ●ping
小包正常
    ●
前期使用单机ping大包未出现丢包现象

    故障前期简单分析

    ● 链路测试、策略检查均无异常,该故障非一般连通性故障
    ●
此类丢包问题,主要是需要定位出丢包的位置
    ●
可能故障点主要有:

故障分析-分析方法

    数据包分析法

    主要通过专有的网络分析工具(科来网络分析系统)将故障时相应的数据包捕获下来进行深度分析,并通过分析发现相应的异常,从而定位故障原因的方法

    对比分析法

    主要指通过对网络中传输的数据包的对比,分析出数据包在传输过程中各个中间设备对数据包的相应处理过程,包括更改、丢弃和转发等

    在此次的故障解决过程中,我们主要使用对比分析法分析出将大数据包丢弃的中间设备或链路。

    在实际的分析过程中,我们需要考虑到抓包的方便性和相应中间设备的功能特性选取数据包捕获点



在这个故障环境下,我们主要选在接入交换机与核心交换机上抓取数据包

    ● 在测试机器10.12.128.66上使用如下命令测试网络的大包传输情况:ping 10.1.10.9 -l 10000 –t

    ● 我们可以简单计算一下ping10000字节的大包在以太网中会被分成多少个分片:

    PING 产生的IP负载=10000(ping负载)+8icmp头长度)

    一个以太网IP包的最大有效负载=1500(以太网MTU)-20IP包头长度)=1480B

    产生IP分片数的计算方式为:

    10008/1480=6 1128,即一个1500Bicmp报文,51500Bip分片包,11148Bip分片包

    通过该测试命令重现了故障现象:大文件传输丢包情况较为严重。

故障分析过程-抓包

    我们分别在核心交换机6509、接入交换机上做端口镜像(端口镜像的详细命令和过程在此不再描述),将其相应链路的数据包镜像到我们选取的监听口,我们再通过科来网络分析系统捕获相应的数据包



接入交换机数据包分析结论

    ●Ping 超时的原因为中间某个大包在传输的过程中被丢弃了,导致接收端重组超时

    ● 接入交换机转发了所有的分片包,即某个分片包不是在接入交换机上丢弃的

    故障分析过程-对比分析

    2. 分析核心交换机6509上抓取的数据包



结论:
   
这个被丢弃的某个分片在到达核心交换机6509前就被丢弃

    对比分析结果

    根据前面的对比分析,结合拓扑结构,我们可以知道,某个分片包是在接入交交换机转发之后、核心交换机 6509 接收之前被丢弃的,那么可能被丢弃的位置只剩下光电转换器了

故障解决

    使用替换法,将接入交换机端的光电转换器更换为一个全新的光电转换器,测试一切正常

    技巧小结

    定位可能故障点
   
数据包分析法
   
对比分析法
   
使用到的知识点:
   
分片计算
    icmp
重组超时