一、故障背景:
我们备份网由两台5K组成,5501和5502,由于进出风向问题,需要将两台设备方向换一下,因此需要将设备的线全部拔掉然后再重新全部插上。
二、故障现象:
我们先进行了5502的掉头工作,整个工作非常顺利并没有任何异常。但是在进行5501掉头工作时候,出现了两台N5K接N2K的口全部down掉的情况,导致下面的所有N2K全部offline,整个备份网络全部中断。
三、故障原因:
vpc有个机制是:当peer link中断而keepalive link没有中断时,两台设备之前的状态同步消息中断,将可能导致两台peer都为primary状态,即active/active状态,为了避免这一问题,当peer link故障后,keepalive link开始工作,当secondary设备通过keepalive link判断出primary设备处于up状态,secondary设备会将自己的VPC相关端口挂起,停止转发VPC流量。
由于我们5501是vpc domain的主,5502是vpc domain的备,所以我们变更5502的时候没有任何异常,但是当开始变更5501时,我们相继的拔掉了5501下联link以及pe