又是很久一段时间没写什么了,这次带来了一次网络故障排查。先把背景描述一下,前一天晚上,客户的网络核心进行割接,用新设备替换老设备。核心设备的替换,自然不能大意,按部就班的完成,然后各种测试,虽然期间有些小问题,但是都解决了,顺利结束。

        第二天,准时到现场保障,问题发生了,视频会议系统故障,视频控制器PING不通了。客户第一步当然是想到是不是核心割接导致的,首先按如下步骤来排查:

  1. 核心上路由表正常,视频会议的网关不在核心上,而是在另一台核心上,和我们操作的核心是三层互联,使用静态路由,从核心去视频系统的网关是通的,初步判断不是我们核心割接的问题;

  2. 视频会议系统在另一栋楼,到我们这里的机房走的光纤,怀疑线路问题,观察接口发现接口正常,但是接口下没有学习到任何MAC,说明线路还是有问题了;

  3. 客户说以前有一条老线路,如果目前线路无法恢复,切回老线路试试,但是老线路的走向不清楚,判断可能性不大,或者切换的时间会很长;

  4. 客户到其它几个楼,测试了一下视频终端,网络是正常的,全网的视频系统都是vlan900,不论物理位置在哪,所以实际上就是一个超级大的二层网络;

  5. 在核心机房内无法进一步排查了,决定到视频系统所在的那栋楼去检查;

  6. 到达机房,检查楼内核心交换机上,有一根光纤标记了视频专用,推测就是这根,登录核心查看mac,可以看到几个VLAN900的mac,核心上到楼内各个地方的光缆有标签,两台核心做的VRRP

  7. 最后到了视频系统设备所在的交换机,接口亮的,登录查看MAC,可以看到,然后把这个MAC对比核心上 的MAC,发现没有,最后看一眼交换机,两对光纤,和核心上同样的颜色,同样的标签。

       到这一步运行我卖个关子,大家可以想一下问题可能出现在哪。

       这里插一句题外话,我经常给组员说我排错的思路,经验,案例,希望能提升他们,但是一个案例,我说出来的时候,就会自然过滤掉很多现场的干扰因素,直接把最关键的步骤罗列出来了,其实最难的才是如何排除干扰,客观的,主观的,各种各种的。这也就导致了,我个人排错出来挺有成就感,但是一去写,去说就感觉不精彩了。

        好了,揭晓答案,我看到那两对光纤就感觉到不对,马上查看了STP阻塞端口,果然其中一个呗阻塞了,再看配置,被阻塞的口下有配置,正常的口没配置。把正常的口上光纤拔了,被阻塞的口恢复,系统随之恢复了。

        问题来了,这个问题的表面原因是少了配置,两根互备的线路,只有一根配置了,所以STP阻塞的接口发生变化的时候,业务就断了,再往深了分析,是昨晚的割接,替换了核心,整个大网的生成树重新进行了计算,导致两个端口原来阻塞的A,变成了B,最后的最后,其实这一切都是全网到处配trunk导致的,很多网络在建设的时候,不做三层,都喜欢搞大二层,看似方便,实际很容易出现各种莫名其妙的问题,所以从这个问题可以看出来,客户本身的整张网,从设计上都已经天生残疾了。

        过程说完了,不知道你们能学到多少,排错这事确实需要经验积累,所以,不要急,多想想为什么,你就能比别人进步的快一点了。