如果你是做网络运维的,那你一定经历过这种场面:突然网络异常报警、核心交换机CPU打满、用户反馈“全网卡死”……这种时候你多半会直觉——十有八九是环路了。
今天这篇,不是科普什么是网络环路,而是我亲身经历的一次环路事故,怎么快速定位问题点、用什么工具、排查顺序怎么走,全程记录,希望能给你带来些启发。
那天大概是早上9点20左右,一进办公室,电话就响个不停:
- “网盘挂了,连不上”
- “视频会议一会掉一会连”
- “OA系统打不开”
登录核心交换机,第一眼就发现异常:
- CPU高达98%,持续跳动;
- 所有上联链路流量暴涨,尤其是广播占比非常高;
- 远端管理口几乎失控,响应延迟严重。
简单判断:大概率是环路引起广播风暴。但网络拓扑太大,接入交换机多达百余台,必须马上采取方法缩小排查范围。