系统问题定位总结

1、问题的描述:在ipran的组网环境中,设备之间建立LDP会话(MPLS转发中分发标签的协议),在其中的一台设备中灌入3kospf路由和3k LDP标签协议,设备会生成3k条lsp,由于设备容量问题,只会生成2k条LDP LSP,设备容量达到上限。然后设备进行HA倒换(高可靠性),主备板卡需要平滑数据,LDP会建立gr-lsp。在这个过程中,会存在有的设备经过LDP GR后业务不通,路由转发也不通的现象。这是一个偶然出现的问题,所以不是简单的逻辑流程的问题,初步猜测应该是不同任务之间调度问题。备注:当建立LDP LSP后,路由转发的下一跳改为MPLS转发。

2、问题初步定为:之所以出现业务不通,是因为两台设备之间出现了不同的转发方式。执行HA的设备因为LDP会话down掉后,将转发更新到路由上,出问题的设备由于没有清掉LDP LSP,仍然保持MPLS转发。执行HA的设备进行路由转发,而与之出问题的设备已仍然走到MPLS转发上,导致两台设备之间的报文无法解封装,ping包和业务数据包不通。。

3、LDP知识背景: LDP在系统执行HA过程中存在两个角色,执行HA的设备称为Re-starter端,与之存在LDP会话的叫做Helper端,Helper端帮助Re-starter恢复转发表项。在这个过程中,Helper端会创建两个定时器,一个是重连定时器:重新建立LDP会话,在规定的时间内如果没有建立起LDP会话,则删除转发表项。一个是恢复定时器:当建立起LDP会话后,会创建LDP恢复定时器,等待定时器超时后,更新LDP建立的转发表项,删除在HA过程中建立的LDP LSP。重连定时器在LDP会话建立后删除,恢复定时器在LDP 会话的down掉后删除。所以这个恢复定时器在正常过程中都要等待超时,然后删除HA过程中建立GR-lsp。LDP会话通过发送消息的方式,通告本端LDP状态,比如会话超时等。

4、问题结论:  正因为存在恢复定时器的原因,GR-lsp的删除只能等待恢复定时器删除,但是如果在恢复定时器过程中LDP的会话down掉,会将定时器删除,GR-lsp没有等到超时删除,所以导致没法更新LDP lsp,使得转发在这种情况下没有办法更新到路由上。出问题的设备就是因为在LDP恢复过程中有收到对端设备发送的会话超时,导致将LDP的状态的down掉。另一端因为主动的down掉会话,将LDP转发表项删除,恢复路由转发。

5、动态协议在运行过程中,不可避免的要建立一些定时器来维护状态。尤其是基于TCP协议的应用层协议,受到影响的因素会更多。比如在TCP的协议状态机中就存在很多定时器,对于像LDP这种为数据建立转发表项的协议来讲,定时器对应着转发通道的建立和删除,所以在清除定时器过程中,需要检查对应维护的一下数据是否恢复正常。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值