本文通过复盘排查IPSec故障的整体过程,揭示分析故障的方法,以及通过该故障学习相关知识。
上篇文章回顾:被抛弃的tcp_recycle
由于业务需要,我们在海外的某些节点上搭建了VPN,方便海外节点之间的数据交互,某天我们在两个新节点之间搭建了一条新的VPN,上线之后Ping、traceroute测试无异常,观察已经有流量通过,监控指标等一切正常。但是过了半个小时后,业务反馈两个新节点之间网络不通,发现问题后紧急上线回退了配置。然后事后线下回测,发现通过重启IPsec 进程,能重现时通时不通的现象。
接下来重现复盘一下当时的配置和场景,以及解释该问题的根因。