故障现象:
主站观察到接入A与汇聚A路由器的ldp会话、bgp邻居中断,导致接入网业务中断,接入B与汇聚C路由器的ldp会话、bgp邻居中断,接入网业务未中断,过程中OSPF并未中断。(接入网网架如下图所示)
网络现状:
1.BGP情况
各接入节点分别与汇聚A路由器、汇聚C路由器建立邻居关系。至汇聚A的链路为主用链路。
2.OSPF情况
各接入节点分别与汇聚A路由器、汇聚C路由器建立邻居关系,其中汇聚A区域为AREA3,汇聚C区域为AREA4。接入节点上行链路中汇聚A侧为优选链路,汇聚B侧为备用链路。
排查过程:
经排查发现,汇聚B告警转发故障,但根据拓扑关系,接入A、B、C通信链路不应经过明珠站,考虑来回路径是否不一致导致该故障,查看配置发现A类厂站(与汇聚A汇聚ldp、bgp中断且104业务中断),环回口使能在AREA4区域。B类厂站(与汇聚C汇聚ldp、bgp中断但104业务未中断),环回口使能在AREA3区域。C类厂站(无异常),只引入直连。
搭建模拟环境对此现象进行复现,发现OSPF中LOOPBACK0地址使能在哪个接口,对应接口的LOOPBACK0路由优先级最高。
原因分析:
由于OSPF中LOOPBACK0地址使能在哪个接口,对应接口的LOOPBACK0路由优先级最高,LDP(lsr-id为loopback地址)、BGP(peer +ip +c l 0)的会话通过双方LOOPBACK0地址建立因此,在正常通信中,均以汇聚A为主,当明珠站转发故障发生时,OSPF未中断,因此未重新学习路由,因此没有选择从核心绕过,LDP、BGP协商报文路径如下图所示,在汇聚寻找接入时优先选择了loopback0发布的区域,导致报文出入方向不一致,导致业务中断。