华为NE40E-X16频繁出现PING测试失败告警的故障分析处理
平顶山数据核心设备网格:王令鹏
一、故障现象。
平顶山IP城域网目前在网运行多台华为NE40E-X16设备,近期出现“沃运维”PING测试失败告警工单,造成节点拖网假象。2020年3月25日下午收到沃运维工单编号:HEN网调【2020】网络故障0325-129761,工单主题:平顶山市:MS-PDS-JSL-SRNE40E-001发生设备PING测试失败告警。
立即核查该设备正常在网运行,几分钟后工单自动恢复,原因不明。
二、问题分析及处理
1、网管PING该设备正常,登录设备查询log日志信息,无OSPF、BGP告警,核查上联端口状态正常,无CRC误码增长,最后一次down时间为2019年12月11日
2、设备运行状态及各项指标均正常,为什么会出现ping测试失败告警工单,导致节点拖网的假象呢?分别与中盈“IP综合网管”厂家和华为厂家工程师沟通,查找原因,初步怀疑是设备未收到ping包,所以没有回应,“IP综合网管”发送ping命令和采集执行结果的是“61.*.*.*”这台服务器,在设备侧核查是否收到ping包,发现有来自“61.*.*.*”的ping包被丢弃了,分析ping命令使用ICMP的协议报文,在设备上使用display cpu-defend all statistics查看设备上送CPU报文的详细情况,发现大量被丢弃的ICMP包。
3、由此判断故障原因为,设备收到大量访问设备地址的ICMP包,达到阈值被主动丢弃,造成“沃运维”出现设备ping测试失败告警工单。
4、问题处理:在BAS设备上通过cpu-defend policy命令配置白名单,提高白名单内地址的ICMP报文优先等级,允许上送CPU处理,确保设备ping测试包不再被丢弃。以下为配置过程:
白名单配置,允许必要地址段通过
白名单应用,防止cpu丢弃必要ICMP报文
5、应用效果:该配置生效后,观察上送CPU报文的详细情况,再无ICMP丢弃报文增长,问题得到解决。
三、问题总结
在日常维护工作中,时常会碰到原因不明,自动恢复的障碍,维护人员若轻易放过,则可能会导致类似故障频发或造成更大的故障。我们应该提高网络安全意识,主动维护,不断积累相关经验,逐步提高维护水平,打造精品网络。