这是自己做网络应急的一次过程描述:

问题症状:

1、网络内突然出现时断时续,丢包比较严重,无法操作业务

2、PING 网段虚地址比如62及两个实际地址6061,时断时续

3、核心交换机S1上到其他网络影响不大,问题主要集中在区XX局及营业大厅。

4、夜间仍然有丢包问题出现

5、H3C 7503 CPU过高

Slot 1CPU usage:

98% in last 5 seconds

55% in last 1 minute

56% in last 5 minutes

6、R1联通线路不通(排查过程中发现)


原网络拓扑图:

wKiom1MIyuuRDqrEAAJnrye4yyo042.jpg

网络结构相对简单,办公网内主要有vlan 3 vlan4vlan5 vlan6,营业厅主要vlan 3,过去整改XX单位的办公内网全部通过H3C 7503连接,核心S175之间通过trunk口进行互联配置;在核心交换机设置了vlan地址,考虑网络高可用性,使用了virtual-ipS1vlan3地址为60s2vlan3地址为61,他们的虚拟地址为62,因此vlan3下面的机器的网关都设置为62,其他的vlan也是同样;

interface Vlan-interface3

ip address x.x.x.60 255.255.255.192

vrrp vrid 3 virtual-ip x.x.x.62

vrrp vrid 3 priority 120

vrrp vrid 3 track 1 reduced 30


S1 trunk接口配置如下:

interface GigabitEthernet1/0/48

port link-mode bridge

port link-type trunk

undo port trunk permit vlan 1

port trunk permit vlan 2 to 4094

其他接入交换机都是通过75上的access方式进行连接,配置如下:

interface GigabitEthernet2/0/41

port access vlan 4

interface GigabitEthernet2/0/43

port access vlan 5

interface GigabitEthernet2/0/46

port access vlan 6


初步怀疑可能的原因:

1、网络环路?

2、病毒***?

3、配置问题?

4、设备问题?

5、网线问题?

6、其他?


为解决问题调整下网络并加入主动威胁设备测试:

wKiom1MIyxSD8huQAAKknuSfg9A339.jpg


为了排除故障,首先做了分析,判断网络环路和病毒ARP可能性较高,在核心交换机上部署了主动威胁发现设备,并将做了端口镜像,还得自己做呀,就是将75和接入交换机的数据复制一份到S1g1/0/30g1/0/30接主动威胁发现设备数据口。

Mirroring-group 1 local(设置镜像组)

Mirroring-group 1 monitor-port Gigabitethernet 1/0/30(设置镜像的目的端口)

Mirroring-group 1 mirroring-port Gigabitethernet 1/0/48 both (设置镜像的源端口 both为双向)

抓包进行主动威胁分析,发现威胁比较少截止晚上就几条病毒***,还有部分ARP风暴,但是量不大。


排错过程意外发现:

刚开始我认为有时候ping 6061不通,60不通,61….是配置有问题,不断出现vrrp切换,我决定将核心交换S1和核心交换机S2之间的线路断掉,只保留一条主线路;但是断掉之后发现,到网关通,但是到上联上级单位不通,怀疑R1联通线路有问题,一看果然R1联通线路断掉了,这个发现是意外,后来联通公司协商上级单位处理解决问题,问题原因是端口协商。


因此怀疑为网络环路或者设备有问题可行性大,由于核心交换机S1上其他vlan接的电脑没有问题(75上接的之外保护电脑A),所以初步怀疑问题集中在75上。为了便于排错我们将网络进行了改造,将其他vlan接入交换机分别接到核心交换S1上,不在连接75,而和75并行。

做如下实验1

1、将所有接入交换机和75全部在核心交换机s1上拔掉网线

2、依次接入,并将测试电脑B接在测试的交换机下面

3、开始ping vlan 3网关

4、Vlan 4 5 6接入交换机问题很小,电脑B丢包不严重(有丢包是因为该笔记本没有装准入模块,导致准入设备会发ARP欺骗包,这是后期发现这个问题的管理员同志没有告诉我)

5、接入75交换机,然后将电脑B接入75上,发现症状比较严重,初步判断可能是75上的问题


更换设备实验2如下

为了排除是设备故障,拿一个24×××换机进行测试,将线全部网线接上,有问题,特别是接大厅的线路时,非常明显,判断问题集中在环路或者线路。


解决环路实验3如下

首先在75上启用STP

1、Stp enable

2、dis stpbrief  查看生成树

3、发现会有一些变化,但是不明显,有个接口down但是,问题还在,可能环路不知一处。

%Feb 2117:01:10:856 2014 xx-S1 MSTP/6/MSTP_NOTIFIED_TC: Instance 0's GigabitEthernet x/x/x was notified a topology change.


4、75上线路全部拔掉,只留下电脑B,发现ping正常。

5、判定问题在大厅机器有环路,决定去找环,发现大厅网线混乱,有分线的,乱接的,不好排查。

6、关闭大厅的小交换机及HUB

7、放弃找环,决定先应急重新布线,通过巡线仪找到一条到大厅的线路,接在刚才拿的24×××换机上,然后从24×××换机依次在接到大厅机器电脑上,发现ping都是正常的。

8、将大厅40多台机器全部梳理完毕,确保没有环路,线路正常。

9、梳理机房线路,将75上不用线路全部清理。

10、测试,一切正常。



虽然是次不太复杂的排查过程,也没有找到具体的环路位置,也没有复杂的配置和惊心的场面,但是往往是些简单的问题,给网络带来致命的危险。希望这个过程给大家有帮助!