线路迁移后,导致全厂网络不通(只有vlan1通)的问题
    因为某些原因,不能贴图。用文字做简单说明。
    原光缆连接:总厂(cisco6509)---3厂(cisco4507)
                总厂(cisco6509)---2厂(h3c7506)---2厂(cisco3560)
    两台核心之间都是通过RAISECOM  RC111-FE连接的。
    前天2、3厂报告全厂断网了。远程登录查看,2厂核心h3c7506死活登陆不上去(内存满了),登录其他设备查看日志,发现一堆警告,大意是网关MAC地址在上下级联口之间翻动,这个是网络里出现环路了,但是此问题由来已久,不影响网络的正常生产。怀疑是H3C7506出现故障了,于是去现场查看。
    现场用控制台连接H3C7506,还是死活连接不上(报错:内存已满),但是表面一切正常,怀疑是因为内存长期满负荷运行导致设备假死。于是重启机器,正常运行之后,查看内存使用23%、cpu使用率1%。但是光纤收发器的灯(TCK、ACT)还是不亮,等了大约一分多钟,状态灯显示正常了(后来测试此光纤收发器不太稳定)。此时,2厂网络已经全部恢复正常,但是3处网络还是不行,去到现场以后,发现光纤收发器状态灯是灭的。判断是光缆问题,工程部排查后发现是因为光缆断了。
    不知什么原因,将3厂的光缆迁移了,连接说明如下:
    现光缆连接:总厂(cisco6509)---2厂(H3C7506)---2厂(cisco3560 G0/48)---3厂(cisco4507 G3/1),设备之间也是通过RAISECOM  RC111-FE连接的。
    光缆接通后,远程登录将G0/48和G3/1封装为trunk,测试vlan1全部ping通,以为搞定了。但是没过几分钟,3厂报告网络还是不通,我纳了闷了,怎么会不行呢,光缆线路正常,管理地址全网ping通,为什么不能正常生产呢?因为现场有人调试,我在总厂配合,因为3厂是从2厂过去的,于是先排查2厂,保证一切正常,于是将cisco3560 G0/48口封装为access口,连接主机,ping同网段地址不通,远程到交换机ping同网段地址,也不通,奇了怪了,检查交换机配置,没问题啊。怀疑是不是这个端口有问题,于是在cisco G0/45口上封装trunk,问题照旧,封装为access口,不通。这时查看日志,报错为:在cisco G0/48和G0/45之间,网关MAC地址翻动;在2厂3560 G0/48和3厂4507G3/1上,本地vlan不匹配。我更郁闷了,难道出现环路了???这个···不可能啊,那怎么会这样呢?在是在找不出原因的时候,在2厂3560 G0/48上随便划了个vlan24,ping此网段主机,通了,(⊙v⊙)嗯?再ping,还是通······以为莫名其妙的好了呢,于是换为其他的网段,ping,不通。唉,顿时泄气了。此时,我真的已经无奈了,是在是找不出来原因了,假设了各种可能,一个个被推翻了。没办法,只能去现场亲自查看、排除故障了。
    到了现场后,排除环路的可能,然后直连cisco3560 G0/48口,测试结果跟之前一样(先不管3厂的网),冷静冷静,我想是不是因为这个H3C7506E出现了什么问题,导致如此结果,准备先登录上去看看(因为我不懂H3C的命令,不会操作)。
    领导说不行就直接连到H3C上试试,绕过cisco3560,这时光纤收发器灯突然灭了(不稳定),又鼓捣了好半天,终于稳定了,这时决意查一下h3c7506,感觉就是它的嫌疑最大(因为光缆线路正常,而且vlan1全网互通,怀疑是不是配置的问题),没辙,只好现场求救,学了几个简单的H3C命令(sys登录用户模式,dis cur查看配置),检查后终于找到了问题根源所在,天啊,vlan1和vlan24之所以能ping通,是因为在7506上创建了,其他的vlan没创建,3厂网络当然不会通了(流量在7506上就直接过滤掉了),于是将所有的vlan重新创建,保存。此时3厂网络恢复正常。搞定,收工!
    问题虽然解决了,感触良多。故障原因真的很简单,但是找出原因费了好大的劲,这也反映出本人经验不足,不能快速定位故障点。将强学习,努力进步,早日成为一名合格的网络工程师!