关注我,你的眼睛会怀孕
今天聊一个“老生常谈”的话题,那就是IP地址规划问题。 一个骨干网的MCE设备下面的枝叶站点,因为两个枝叶站点之间的业务IP地址规划冲突,导致两个站点之间出现时断时续的状况。当时在排错的时候,只能通过客户的TV远程桌面去进行连接,从一定程度上还增加了排错的难度。 实际上,关于大型网络(尤其是骨干网)的IP地址规划,虽然从技术上说难度不大,但尤其考验管理者的耐心与细心。在只有一张网络结构总图,没有标记接口和互连IP地址,而且拓扑图还有可能有错误的情况下,如何花时间找出故障源头呢?1
让人一脸抓瞎的问题 有时候,接到网络故障的CASE还真是一件让人迷茫的事情。有些故障很明显,一查就是少一条路由,配错一个IP地址,关了一个接口啥的,遇到上述情况的时候还是好的。但是呢,有些故障是现象看起来一切正常,但故障就是莫名其妙地出了。客户此时还告诉你:“我们没动过网络啊,昨天还好好的,今天突然就出问题了!” 不过呢,任何故障都有自己的原因的。有一种原因就是由“潜伏”的隐患在某一天突然爆发而出现的。 ▼ 那天下午三点多钟,吴雄飞接了贵阳客户的一个电话,说是一个位于陕西路的三级网点网络出了故障。这个网点是一个星期以前新建的,刚建立的时候网络都是正常的,但突然之间网络就断了,所以需要进行一番检查。客户说的是:“这个站点还暂时未投用,所以慢慢排查就是了,TV的远程ID和密码已经发送短信,操作机上有网络拓扑图,还有陕西路站点的用户名和密码。” 经过双方的简单沟通,吴雄飞了解到的“情报”也就只有这些: 吴雄飞从客户手里得到的拓扑图是这样的: 这里列出了所有WAN汇聚设备的结构,一级、二级站点为MPLS V PN的PE设备。一级站点字体为红色,二级站点字体为蓝色,三级站点字体为黑色。 吴雄飞大致看了一眼这个结构图,发现陕西路站下挂在瑞金路站下方。 而陕西路站点,需要访问省中心的OA服务器,IP地址是10.100.145.19,所以,陕西路站点的VRF OA下,有10.100.145.16这个IP地址相关的路由才行。 本来嘛,吴雄飞想着,如果陕西路站点上的VRF OA内没有10.100.145.19相关的路由,或者是路由下一跳地址不对,或者是瑞金路站点上没有10.113.192.0/24的路由,这都比较好办。但问题就是:当他登上陕西路站点后,一查看VRF OA下的路由,发现有一条10.100.145.0/24的路由,而且下一跳地址是10.49.206.18,而这个地址正好是瑞金路站的地址。2
逐步摸清网络结构 此时,吴雄飞在陕西路站点上,查看路由表时发现存在10.100.145.0/24的路由,而且下一跳地址也正确。于是,他决定带着源地址去ping一下10.100.145.19,得到如下现象: ping的结果是断断续续的,而Tracer的时候也只是到第一跳就丢包了。而此时,陕西路站上10.100.145.0/24的路由又肯定是100%正常的,所以吴雄飞判断问题肯定不会只在陕西路一个站点上,而应该对陕西路到省中心之间的路径做一个全面检查。 所以,他立刻拨通了客户的电话,说是需要所有PE设备的用户名和密码。因为,随意提供PE级别设备的用户名和密码给其他人是违规行为,对方不肯提供PE设备的用户名和密码。 这让吴雄飞心里面觉得不太舒服。不过,对方如果能把配置信息抓过来,进行逐步查看或许也还是有用。所以,吴雄飞向黄腾要了如下信息: 虽然,查看抓取的一堆配置信息,不如登上设备查看那么灵活和自由。而且在设备的CLI里面查看信息,可以使用include,begin等管道参数进行过滤。但好歹这些配置信息都已经到了自己的电脑上,可以不用远程登录到对方的电脑上了。 只要是搞明白了预期的网络路径,那就可以在沿途的设备上查看相关的路由是否正确了。这也说明了,这种情况下,路由需要逐跳查看,一个设备一个设备的查看。这样查看的话,总能查出问题的所在。 怎么拿出铁证来证明GigabitEthernet 1/3接口下面就一定是中华路站点,GigabitEthernet 1/4接口下面就一定是瑞金路站点呢?此时再不和黄腾沟通,如何确定呢? 答案就是,查看OSPF邻居表和BGP邻居表,也可以进行一次确认。还好,黄腾在抓取信息的时候,还是把OSPF邻居表也一起抓来了。 也不用在看BGP表了,直接在OSPF邻居表里面,看到了10.49.254.3,接口正好对应着Gi 1/3接口。而10.49.254.3这个地址,直接查看中华路站点设备抓取的信息,查看它的Loopback 接口,就正好可以判断出Gi 1/3下面就是中华路站点,Gi 1/4下就是瑞金路站点。 于是,结合刚才在会展城看到的10.113.192.0/24的路由信息,下一跳地址指向Gi 1/3接口,这显然是有问题的。 正常情况下,10.113.192.0/24这个陕西路站点的业务路由,应该是从Gi 1/4 接口学习过来,但现在却是在Gi 1/3接口学习过来的。既然不是静态路由写错了,那就只有一种可能,中华路PE设备下方肯定也有站点用的是10.113.192.0/24。 查看中华路站点下,10.113.192.0/24的路由。 好了,现在的情况就已经很明确了。中华路PE站点下的中山路MCE站点,使用的业务路由也是10.113.192.0/24,与陕西路站点的10.113.192.0/24发生了冲突。所以,不仅陕西路站点的网络有问题,估计中山路站点的网络也不会正常。 从那以后,吴雄飞他们也再也没有接到黄腾的电话。 按照他的想法是,如果客户没有再来电话,就默认认为是问题已经解决了。1
end
来源:51CTO公众号
年度热文
【收藏】运维必备的问题定位工具及案例分析
【收藏】超全Redis面试题,开发、运维必备!
【技术】摸鱼也要有技巧,这3个命令让你看起来很忙
【干货】Telnet的命令使用方法及常见问题
【收藏】快速排查无线AP故障的十种方法
【干货】超全!华为交换机端口vlan详解~
【收藏】最常见的10个网络故障,你一定遇到过
新网工为什么要学虚拟化?
【工具】6款免费网络延迟测试工具,放心大胆用!
【必看】你离IT大佬还差11个认证【收藏】华为5700系列交换机常用配置示例
【科普】为什么ip地址通常以192.168开头?
【干货】图文并茂磁盘阵列RAID详解
【教程】手把手zabbix安装教程
系统集成/认证培训
买设备,找我们
IT维保,找我们
IT培训,找我们