诡异网络问题追踪后续

最新推荐文章于 2024-05-07 10:26:13 发布

weixin_34138255

最新推荐文章于 2024-05-07 10:26:13 发布

阅读量92

点赞数

文章标签：数据库数据结构与算法

原文链接：http://blog.51cto.com/thuhak/1352592

版权

最近有时间，并且陆续又有人报告网络存在问题，于是又开始继续折腾这个问题。

抛开错包的问题不谈，来看一下广播流量是怎么产生的。

一开始的假设是某个或某些地址不停地进行全网扫描造成的。这可以解释为什么新建一个网段并没有出现错包增多的情况。按照这个思路来理解，这个发出扫描地址一定能够访问到这个网关的地址才可以。

根据防火墙的规则，我可以把这个范围缩小，在这个范围内抓包就可以定位到问题源头。

我决定在交换机管理网段抓包来证明我这个猜测的理论。因为能够访问这个网段的地址并不多，如果确实没什么流量，就证明了我的假设可能是正确的。

另外，由于交换机管理网段vlan是基本上所有交换机的公共vlan，在大范围内出现广播问题的时候，这是第一个满足特征的vlan。

抓包的结果让我吃惊，交换机管理网段存在着大量的arp包。wireshark统计，每秒钟在400多个arp。

再仔细观察，发现这部分arp主要分为两种，一种是gratuitous arp，另外一种是对全网扫描的arp包。每秒钟都会扫几轮。这些发出扫描的arp包的源地址有一个共同特点，就是他们都来自新采购的h3c 3100v2-ei交换机。

只好打h3c的售后咨询一下这是什么情况。

h3c的工程师的答复是可能是stp tc引起的arp表清除导致的。

我感到很奇怪，因为标准的stp协议在收到tc报文后，为了防止产生环路，应该清除的是端口下的mac地址缓存，而不是arp表。清除arp表这种行为从原理角度上来讲并没有意义，stp是一个纯粹的二层协议。

不过不管怎样，我还是决定试一下，我把stp 协议关掉，看看是不是有改善。

果然，扫描停止了。

于是我又联系h3c的工程师问问究竟是怎么回事。

得到的答复是在3100v2里面，arp表的数据结构里面含有端口信息，因此拓扑改变一定要清除arp表。我猜测这也是为了优化三层向二层的转发速度所采取的一种方法。

靠，原来如此。

一般来说，这样并不符合数据库设计第三范式，会有不少数据冗余。不说这个，按照这个做法，对于一个有n台设备的网络，只要其中一个设备产生一个tc报文，那么对于剩余的每台设备都会产生n-1条arp request，总计流量是(n-1)^2，也就是说报文数量对于网络规模呈平方增长。假设这个网络内有101台设备，（这是一个不算过分的值）就是会产生10000条的广播流量，每条60bytes，就是每个端口600kByte的流量。如果tc报文数量增长，报文总数也会随之呈线性增长。这样设计真的没问题么？

好在h3c里面还有tc-protection功能，可以限制刷新的次数。本来这是我们的默认配置，这批新货可能疏忽了，有些并没有配置上。同时根据核心上的tc 报文接受数排序，对整个网络进行了一次检查，把边缘端口都加上去了。

交换机管理网段的广播问题得到了遏制。

下一步，要追踪用户抱怨地比较多的网段的问题。。

转载于:https://blog.51cto.com/thuhak/1352592

weixin_34138255

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
诡异网络问题追踪后续

最近有时间，并且陆续又有人报告网络存在问题，于是又开始继续折腾这个问题。抛开错包的问题不谈，来看一下广播流量是怎么产生的。一开始的假设是某个或某些地址不停地进行全网扫描造成的。这可以解释为什么新建一个网段并没有出现错包增多的情况。按照这个思路来理解，这个发出扫描地址一定能够访问到这个网关的地址才可以。根据防火墙的规则，我可以把这个范围缩小，在这个范围内抓包就可以定位到问题源头...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。