环路问题分析总结
目 录
1 现网描述 1
1.1 拓扑描述 1
1.2 环境描述 1
2 故障描述 1
2.1 故障现象 1
2.2 故障复现 1
2.3 故障影响 1
3 问题分析 2
3.1 排查思路 2
3.2 原因分析 2
4 问题解决 2
4.1 解决办法 2
4.2 分析总结 2
1 现网描述
1.1 拓扑描述
核心7604E下联多台S5750E作为汇聚,上联有深信服准入设备。
1.2 环境描述
下联S5750E存在多台串联情况,同时网络环境比较混乱有私自接非网管交换机情况。
S5750E所有终端接口配置了mac-authentication-bypass功能,配合准入设备进行准入MAC认证。
如图所示为客户S5750E终端接口配置。
2 故障描述
2.1 故障现象
接入交换机(5750E)配置了MAB后,mac地址绑定到接口上出现问题,MAC会出现从不同的接口上来(错误绑定上来的MAC接口下联的不可网管二层交换机),导致准入设备无法正确识别终端,终端无法正常上网。
例如这个IP 被MAB绑定到了1/0/14口口,但是实际排查是从49口级联口下联设备上来的,1/0/14口接的是一个不可网管二层交换机。最终导致这个终端能拿到DHCPIP地址但是无法与核心通信。
2.2 故障复现
故障集中出现在上图串联的交换机中,故障情况为终端被错误的绑定到了非直连接口,当设备从直连接口上来时,因为配置了mac-authentication-bypass功能,终端无法正常上网。
图中89-dd被绑定在1/0/14接口,经过现场排查,设备正式位置在该交换机级联下的另一台S5750E上,被错误的绑定在了1/0/14上。
2.3 故障影响
客户部分终端无法正常上网,影响正常办公。
3 问题分析
3.1 排查思路
从一开始的故障现象(终端错误被绑定在了某个错误的接口上),到排查发现下联设备存在Adown现象,到后面使用show cpu-rx pr all 时 UNKNOWN-SMAC包异常。
均有环路嫌疑,后经客户现场排查确实存在环路,拆除环路后故障现象缓解(现场存在多处环路)客户需进一步排查。
3.2 原因分析
客户下联设备混乱核心接S5750E后设备上有终端,有下联非网管交换机有下联另一台S5750E,此种解法十分容易造成环路情况,根据故障现象以及设备日志信息等,基本确实是环路导致,后经客户现在排查,确实存在环路。环路解除后网络恢复。
4 问题解决
4.1 解决办法
根据现有线索判断为内网存在环路导致设备错误识别到了终端的MAC,并错误的绑定到了设备的接口上。当终端从正确的接口上来时,准入设备无法识别,最终导致无法上网。
出现故障情况后让客户去现场排查发现错误绑定的端口下联非网管交换机存在环路,且接口存在ADOWN情况,后续客户自行排查环路,故障排除,网络恢复。
4.2 分析总结
当出现一个MAC从同一网络设备的不同接口被识别到的时候,优先考虑是否存在物理环路。网络恢复后告知客户加强管理,引起环路主要原因是管理不善,下联设备串接非网管交换机、设备线路私接、乱接设备线路都是导致环路的原因。
建议客户对网线进行规范化管理,明确标识网线两端打上标签,标明两端地址防止环接。IP/MAC实名制,IP-MAC-人一一对应,可有效确定环路点的范围。