![a9fd053f0becc59396698f7710042cd3.png](https://i-blog.csdnimg.cn/blog_migrate/dc1a0a2db90b249264baf72ea4861e97.jpeg)
![b60cebb59a89648616b3f690e107aaeb.png](https://i-blog.csdnimg.cn/blog_migrate/699e9c4e59ab03476b9d93480ad31498.png)
★★★★★
![f4d87c8d39f709883c2f11d8be670642.png](https://i-blog.csdnimg.cn/blog_migrate/525eb12dcd81426e4b47e06d204abf9e.png)
报文复制、报文反弹、组播风暴
![268400242463f2438ea171488f1fa1a3.png](https://i-blog.csdnimg.cn/blog_migrate/13de2ec35bb4e5648f20e111eba7d078.png)
组播报文复制反弹是指在网络内转发组播通用查询报文时,某些ONU会复制这些报文到该ONU转发的所有其它报文中去,每复制一次,报文长度增加4个字节。这些复制报文会被ONU反弹到同一OLT甚至同一交换机下的其它同类ONU中,再次大量复制反弹。这个过程在网络中不断重复,就会导致网络中的组播通用查询报文在短时间内剧增,同时报文长度会增长到超过1024个字节,导致组播风暴、业务中断。
![a25cf4f771cbe3a2ce11a6365077219b.png](https://i-blog.csdnimg.cn/blog_migrate/afaa28e32fbf9c15519b54513c320eb0.jpeg)
![cc8647ff7911f3587dab4a02666182e7.png](https://i-blog.csdnimg.cn/blog_migrate/9e325664ea31b65b3cd9ecef17f1e557.png)
某地区运营商在OLT下混合使用EPON ONU和GPON ONU,某日全网出现少量AN5006-01和AN5506-01的断纤告警,导致大约50户用户上网时网络时断时续。
![e570c249f021547b707e00b277582f0e.png](https://i-blog.csdnimg.cn/blog_migrate/f7eec4f653f42ad60a5973527dfbc0dd.png)
![52c2c3e95d413d6f740c26ae684bef89.png](https://i-blog.csdnimg.cn/blog_migrate/e66a46c012693b051d979afc12287357.jpeg)
![e7638c9a3fd71d41c8baabcb357f8e84.png](https://i-blog.csdnimg.cn/blog_migrate/c4d67af7c0a4e68ea34f93cda64050f3.png)
OLT机盘问题;
光纤或ODN问题;
ONU软件版本问题。
![2fc65902a115f8f2bfe69d332ac4b77a.png](https://i-blog.csdnimg.cn/blog_migrate/54855e121f7efd9f13c4bdade4849b5c.png)
1. 查看机盘软硬件版本、机盘状态。
结果:机盘软硬件版本正确,工作状态正常。
结论:排除机盘故障问题。
2. 查看光路情况。
结果:ONU侧收发光都正常。
结论:排除光路质量问题,怀疑ONU软件版本问题。
3. 现场对OLT上联口抓取IGMP包。
![64de9fca70a39c1ca494a89279c577c6.png](https://i-blog.csdnimg.cn/blog_migrate/08ff35d173bc5177f0db6c81c36e3ae9.jpeg)
结果:故障出现期间,OLT每秒收到的组播报文大于2000个(正常情况为个位数),且报文包长持续增长。
结论:判断网络中存在组播风暴。
4. 由于业务中断主要发生在AN5006-01和AN5506-01上,且根据现场抓包发现OLT上联口组播报文非常多,搭建环境模拟故障现场,与现场OLT上联口抓取的报文进行对比分析。
![110f5025f1acbe20751301614cf2ad39.png](https://i-blog.csdnimg.cn/blog_migrate/d2adbc25040a6e30fb90d9b67cf4d4fa.jpeg)
![c5879f919bc9e1d6e311c333c6b4cb06.png](https://i-blog.csdnimg.cn/blog_migrate/8f1bf948c787024e22e58a11261e8ae3.jpeg)
结果:通过模拟故障现场,发现AN5006-01对组播报文处理能力有限,当报文数量在30pps左右时会出现闪断现象,AN5506-01在对报文长度超过1024个字节的组播包处理时易出现闪断而掉注册。而故障发生期间,现场OLT收到的组播报文激增,IGMP报文数量大于30pps,超过了AN5006-01对组播报文的处理能力,可能导致其闪断,报文包长大于1024个字节,AN5506-01在对此报文处理时可能会闪断掉注册。
结论:初步判断可能是组播风暴导致AN5006-01和AN5506-01出现闪断故障。
5. 配置OLT的流分类规则,丢弃OLT上联口IP协议类型为2的报文,即IGMP报文,避免持续的大量组播包对OLT下挂的ONU进行冲击。
![a38eb9364094a8a315523c88bdbc5983.png](https://i-blog.csdnimg.cn/blog_migrate/f26e016f853da3773622e2c1100d6f31.jpeg)
![1db63fad2d5b6356ac0e81b7f021f264.png](https://i-blog.csdnimg.cn/blog_migrate/810c00be3f155506b55100f07d1649b2.jpeg)
![82e6ae0808a4acfca3a8672541acf591.png](https://i-blog.csdnimg.cn/blog_migrate/88ced26f4e03cbdc359b5bb50f77856c.jpeg)
![7e9cd61bc6807e5ceb04e7a73a379cc7.png](https://i-blog.csdnimg.cn/blog_migrate/0f36f7675c8cd73b80c2f2b38803240b.jpeg)
结果:抓包发现进入OLT的组播报文大幅减少,故障消除。
结论:确认组播风暴导致AN5006-01和AN5506-01出现闪断故障。
6. 抓包分析确认组播风暴的来源。
1) 现网抓包,发现OLT实际收到的组播报文并不多,删除一台OLT的流分类规则。
![58295bb756c2c7163d8aec368c378671.png](https://i-blog.csdnimg.cn/blog_migrate/70dcadb025085941f1867afac5229d60.jpeg)
结果:该OLT收到的组播通用查询报文逐渐增长,从包的效验码看,基本是同一个报文,报文进行了复制,同时报文长度会自动增加4个字节。
结论:怀疑OLT收到的上联方向过来的组播报文在UNI侧出现了环路,并且反复复制,并重新发送至OLT上联口,到了交换侧又重新转发至交换机,从而到达其它的OLT。
2) 通过MAC地址查询,发现被复制反弹报文的源MAC地址对应为AN5006-10B2H,关闭此ONU。
![8635c67a19e73588275774ecd99f19ed.png](https://i-blog.csdnimg.cn/blog_migrate/d32fc0f5f2cfb9e79d6c709fff7fb6f3.jpeg)
结果:没有复制反弹的报文出现,组播报文长度未继续增长;
结论:初步判断AN5006-10B2H可能会复制反弹报文并增长报文的长度。
3) 继续删除第二台OLT的流分类规则(此台OLT其中一块线卡下挂了一台AN5006-10B2H)。
![98a1e9ef8b696ce4ed08db690638bec4.png](https://i-blog.csdnimg.cn/blog_migrate/8c225655b3e67312933652c7f1a52a15.jpeg)
结果:重现了组播报文复制反弹的现象。
结论:确认低版本AN5006-10B2H会导致组播风暴。
当两台AN5006-10B2H分别在不同的OLT下,组播报文会开始乒乓式的复制反弹,同时报文长度也会增加。
![5ab834e7cbe6a655034a51c8ccfea66e.png](https://i-blog.csdnimg.cn/blog_migrate/37e686ecfff6d798d29d7e948a27d009.jpeg)
当多台AN5006-10B2H同时存在于不同OLT时,就会导致网路中的组播通用查询报文在短时间内剧增,同时报文长度会增长到超过1024个字节。
![c534cb7e5ff0a13a00b371c3b67a13d2.png](https://i-blog.csdnimg.cn/blog_migrate/c51348501a2d01b9622c2b4102abd876.jpeg)
![1f1e8973ba137558496fb2d674830e85.png](https://i-blog.csdnimg.cn/blog_migrate/41126db8453552f3feec855fd72fb6c5.png)
升级AN5006-01和AN5506-01的软件版本,解决组播风暴下闪断隐患。
升级AN5006-10B2H的软件版本,解决该ONU低版本引起的组播报文大量复制并反弹的问题。针对该型号ONU,可通过查看ONU组播成组命令,判断该ONU是否处于异常复制与反弹组播报文状态。
show ip igmp snooping vlan all
异常状况下,会有数条组播组信息,不同的组播VLAN ID和组播IP信息。
![501d721b69c85585d2d4c2ac3a08dc93.png](https://i-blog.csdnimg.cn/blog_migrate/d64d44357b6a07afd2eedf86d315e356.jpeg)
![74de04246785559bb8c72a3a699422f7.png](https://i-blog.csdnimg.cn/blog_migrate/f657e04423d2a54eae8a344a6cc756e3.png)
组播是指源主机(即组播源)只发送一份数据,其目的地址为组地址,组播组中的所有接收者都可收到同样的数据拷贝,并且只有组播组内的主机可以接收该数据,而其它主机则不能收到。组播代理在此可以起到拦截作用,因为是靠拦截用户路由器之间的IGMP包建立组播表,代理设备的上联端口执行主机的角色,下联端口执行路由器的角色。本案例中网络存在组播风暴,且组播代理被关闭,故直接引发了故障。为避免此类问题再次发生,建议OLT组播模式配置为代理模式,可以有效截断大量组播报文的反弹。
![9d9345e06067991fefc58b71ff4635c7.png](https://i-blog.csdnimg.cn/blog_migrate/3c0bdedf3104f64318c6a7a8748bbdda.png)
![96c534bfd88ff82d1e9a71ffaa25bcd1.gif](https://i-blog.csdnimg.cn/blog_migrate/14ade3e63af0445f1d51fec10cb5800e.gif)