NSX6.4.5 [问题描述]:上周六早上,生产环出现大量丢包,怀疑是edge故障,切换edge后,恢复

本文记录了一次生产环境中VMware NSX Edge出现丢包问题的处理过程。在周六早上,网络连接异常,初步判断为Edge故障,切换Edge后恢复服务。故障影响智能审核和移动点播,持续约半小时。通过抓包分析,VMware技术支持未发现日志问题,建议下次故障时进行更详细的抓包分析。最终建议在一线解决不了时及时升级支持,并计划进行EDGE的割接与高可用性设置。
摘要由CSDN通过智能技术生成

1、NSX6.4.5 [问题描述]:上周六早上,生产环出现大量丢包,怀疑是edge故障,切换edge后,恢复。此问题已出现过两会但都没查到原因需要彻查原因
     周六早上6点半左右接到电话,综合网管出现智能审核和移动点播出现报警,网络连接丢失,远程登陆,发现同一个项目里有部分虚拟机能通,有部分 虚拟机不通,第一反应是edge出现问题,检查了edge状态和所在主机状态都没有问题,登陆后台不能ping通的虚拟机,发现ping核心没问题,联系网络同事从核心ping虚拟机不通;最后还是决定切换edge,切换后恢复正常,时间为7点左右;抓下了edge的日志和所在主机的日志
2、影响范围:从综合网管来看是智能审核和移动点播,估计其他网段也有问题,没有测试;
3、影响时间:半个小时左右
4、处理过程:切换到备用edge
5、处理结果:故障恢复
6、后续:没有动主edge,提交case,因为是周六,客服回复周一联系,周一把日志发给VMware,回复从日志分析没问题,下次出现时抓包分析,从edge和所在主机两个方面抓包;
7、对edge VM进行抓包:
查找edge所在VM的端口号,edge一般会有多个网卡,可以通过mac地址来判断edge的uplink和downlink
# net-stats -l | grep edgeVMName
33554438           5       9 DvsPortset-0     00:50:56:ae:36:07  VM.eth0
对edge的端口双方向抓包(在ESXi 6.7后可以支持双方向抓包)
# pktcap-uw --switchport 33554438 --dir 2 --proto 0x1 -o /tmp/vm.pcap
按ctrl+c停止抓包。

2. 对主机物理网卡进行抓包,方法类似(--proto 0x1参数是过滤ping包的,如果流量大,建议在两个抓包命令上都加入这个参数)
pktcap-uw --uplink vmnic8 --dir 2 --proto 0x1 -o /tmp/vmnic8.pcap

关于抓包命令的文档说明,请参考:
https://docs.vmware.com/cn/VMware-vSphere/6.7/com.vmware.vsphere.networking.doc/GUID-30003897-2101-459C-81FA-FCB42313237E.html
8、经验:
1)因为担心影响范围扩大,没有第一时间切换edge
2)应该在这一时间内找同事进行不同网段进行ping测,确定范围
3)可以找VMware保障,在故障恢复前
4)应该第一时间抓包分析,但与第一时间解决故障冲突
9、建议
1)将EDGE干掉,重新安装
第二阶段:
1、4月20日,准备割接申请
2、4月27日完成割接,割接之后高可用性没有启动;
3、查看原因是未设置高可用的管理IP,5月19日设置后启动成功
4、截至到归档时间6月8日,未在出现edge报警;
当一线解决不了的时候要求升三线,不要一直压在一个一线手里

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值