用户反馈网络经常不稳定,核心交换机重启恢复正常
拓扑是每个交换机二层级联 直接看报错提示:
dis logbuffer 其中 gi 0/0/51 端口是汇聚交换机下联口,gi0/0/52 端口是汇聚交换机上联核心交换机的端口,可以看到规律性的51和52口的STP的状态改变
terminal monitor 可以看到交换机提示如下日志
Oct 28 2022 21:49:10 FutureMatrix ENTITYTRAP/3/OPTICALINVALID:OID 1.3.6.1.4.1.56813.5.25.219.2.4.5 Optical Module is invalid. (Index=67439822, EntityPhysicalIndex=67439822, PhysicalName=“GigabitEthernet0/0/51”, EntityTrapFaultID=136203, EntityTrapReasonDescr="The optical module speed does not match the interface speed
大概的意思就是模块的速率和端口不匹配
dis tran interface gi 0/0/51 可以看到Gi端口是千兆口,使用了一个OEM的万兆模块,52口也一样
仔细看 中间的那条日志 由于模块不匹配的问题造成了 瞬时RX接收方向的收光变成了-40 dbM,相当于没有收光,这个时候下游汇聚交换机收不到上游核心的BPDU,它认为核心交换机挂了,于是开始发送更优的BPDU宣告自己是MST INT0的根桥;核心根桥接收到了这个BPDU后认为发生了单通,于是将该单通的接口置于discarding 这个上联口就不能转发流量了。
由于这个机制的超时时间是5分钟,5分钟后接口又放通,流量又开始恢复。这个过程循环往复,导致了从汇聚到接入层的不规律的流量断流。
客户反应重启后流量能够恢复,因为重启的过程打断了stp 的计时器,使得重启后STP重新计算识别,所以也从侧面印证了这个故障的原因。
解决的办法就是更换和接口速率兼容的光模块。 这个场景下应该更换和核心适配的千兆单模光模块。万兆模块是不能插到千兆端口上面去的。倒过来是可以的。
从这个案例也可以看出,华为智选能够兼容其他厂家的模块并且支持模块诊断功能,这点比其他厂家要好。