组播mac地址_接入网故障处理宝典:组播风暴导致ONU断纤告警案例

a9fd053f0becc59396698f7710042cd3.png b60cebb59a89648616b3f690e107aaeb.png

★★★★★

f4d87c8d39f709883c2f11d8be670642.png

报文复制、报文反弹、组播风暴

268400242463f2438ea171488f1fa1a3.png

组播报文复制反弹是指在网络内转发组播通用查询报文时,某些ONU会复制这些报文到该ONU转发的所有其它报文中去,每复制一次,报文长度增加4个字节。这些复制报文会被ONU反弹到同一OLT甚至同一交换机下的其它同类ONU中,再次大量复制反弹。这个过程在网络中不断重复,就会导致网络中的组播通用查询报文在短时间内剧增,同时报文长度会增长到超过1024个字节,导致组播风暴、业务中断。

a25cf4f771cbe3a2ce11a6365077219b.png cc8647ff7911f3587dab4a02666182e7.png

某地区运营商在OLT下混合使用EPON ONU和GPON ONU,某日全网出现少量AN5006-01和AN5506-01的断纤告警,导致大约50户用户上网时网络时断时续。

e570c249f021547b707e00b277582f0e.png 52c2c3e95d413d6f740c26ae684bef89.png e7638c9a3fd71d41c8baabcb357f8e84.png
  • OLT机盘问题;

  • 光纤或ODN问题;

  • ONU软件版本问题。

2fc65902a115f8f2bfe69d332ac4b77a.png

1. 查看机盘软硬件版本、机盘状态。

结果:机盘软硬件版本正确,工作状态正常。

结论:排除机盘故障问题。

2. 查看光路情况。

结果:ONU侧收发光都正常。

结论:排除光路质量问题,怀疑ONU软件版本问题。

3. 现场对OLT上联口抓取IGMP包。

64de9fca70a39c1ca494a89279c577c6.png

结果:故障出现期间,OLT每秒收到的组播报文大于2000个(正常情况为个位数),且报文包长持续增长。

结论:判断网络中存在组播风暴。

4. 由于业务中断主要发生在AN5006-01和AN5506-01上,且根据现场抓包发现OLT上联口组播报文非常多,搭建环境模拟故障现场,与现场OLT上联口抓取的报文进行对比分析。

110f5025f1acbe20751301614cf2ad39.png c5879f919bc9e1d6e311c333c6b4cb06.png

结果:通过模拟故障现场,发现AN5006-01对组播报文处理能力有限,当报文数量在30pps左右时会出现闪断现象,AN5506-01在对报文长度超过1024个字节的组播包处理时易出现闪断而掉注册。而故障发生期间,现场OLT收到的组播报文激增,IGMP报文数量大于30pps,超过了AN5006-01对组播报文的处理能力,可能导致其闪断,报文包长大于1024个字节,AN5506-01在对此报文处理时可能会闪断掉注册。

结论:初步判断可能是组播风暴导致AN5006-01和AN5506-01出现闪断故障。

5. 配置OLT的流分类规则,丢弃OLT上联口IP协议类型为2的报文,即IGMP报文,避免持续的大量组播包对OLT下挂的ONU进行冲击。

a38eb9364094a8a315523c88bdbc5983.png 1db63fad2d5b6356ac0e81b7f021f264.png 82e6ae0808a4acfca3a8672541acf591.png 7e9cd61bc6807e5ceb04e7a73a379cc7.png

结果:抓包发现进入OLT的组播报文大幅减少,故障消除。

结论:确认组播风暴导致AN5006-01和AN5506-01出现闪断故障。

6. 抓包分析确认组播风暴的来源。

1) 现网抓包,发现OLT实际收到的组播报文并不多,删除一台OLT的流分类规则。

58295bb756c2c7163d8aec368c378671.png

结果:该OLT收到的组播通用查询报文逐渐增长,从包的效验码看,基本是同一个报文,报文进行了复制,同时报文长度会自动增加4个字节。

结论:怀疑OLT收到的上联方向过来的组播报文在UNI侧出现了环路,并且反复复制,并重新发送至OLT上联口,到了交换侧又重新转发至交换机,从而到达其它的OLT。

2) 通过MAC地址查询,发现被复制反弹报文的源MAC地址对应为AN5006-10B2H,关闭此ONU。

8635c67a19e73588275774ecd99f19ed.png

结果:没有复制反弹的报文出现,组播报文长度未继续增长;

结论:初步判断AN5006-10B2H可能会复制反弹报文并增长报文的长度。

3) 继续删除第二台OLT的流分类规则(此台OLT其中一块线卡下挂了一台AN5006-10B2H)。

98a1e9ef8b696ce4ed08db690638bec4.png

结果:重现了组播报文复制反弹的现象。

结论:确认低版本AN5006-10B2H会导致组播风暴。

  • 当两台AN5006-10B2H分别在不同的OLT下,组播报文会开始乒乓式的复制反弹,同时报文长度也会增加。

5ab834e7cbe6a655034a51c8ccfea66e.png
  • 当多台AN5006-10B2H同时存在于不同OLT时,就会导致网路中的组播通用查询报文在短时间内剧增,同时报文长度会增长到超过1024个字节。

c534cb7e5ff0a13a00b371c3b67a13d2.png 1f1e8973ba137558496fb2d674830e85.png
  • 升级AN5006-01和AN5506-01的软件版本,解决组播风暴下闪断隐患。

  • 升级AN5006-10B2H的软件版本,解决该ONU低版本引起的组播报文大量复制并反弹的问题。针对该型号ONU,可通过查看ONU组播成组命令,判断该ONU是否处于异常复制与反弹组播报文状态。

show ip igmp snooping vlan all

异常状况下,会有数条组播组信息,不同的组播VLAN ID和组播IP信息。

501d721b69c85585d2d4c2ac3a08dc93.png 74de04246785559bb8c72a3a699422f7.png

组播是指源主机(即组播源)只发送一份数据,其目的地址为组地址,组播组中的所有接收者都可收到同样的数据拷贝,并且只有组播组内的主机可以接收该数据,而其它主机则不能收到。组播代理在此可以起到拦截作用,因为是靠拦截用户路由器之间的IGMP包建立组播表,代理设备的上联端口执行主机的角色,下联端口执行路由器的角色。本案例中网络存在组播风暴,且组播代理被关闭,故直接引发了故障。为避免此类问题再次发生,建议OLT组播模式配置为代理模式,可以有效截断大量组播报文的反弹。

9d9345e06067991fefc58b71ff4635c7.png 96c534bfd88ff82d1e9a71ffaa25bcd1.gif
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值