记录HP刀箱故障处理

刀箱是HP-C700,一共4个刀片、6个电源、2个VC、2个OA、2个FC,电源采用的是N+N的模式、OA、VC、FC采用的是高可用的模式,刀箱是我们单位测试环境。

端午前2天5号电源告警,查看时电源故障,安排厂商更换电源,本以为更换电源是小事,不会影响系统的使用,就更换了,可能是电源线有线路有问题,在更换电源的时候,导致刀箱宕机,虚拟机自动迁移,因内存资源有限,导致大面积的虚拟机出现宕机,当刀片恢复时,发现刀片的网络不通,登录到OA后查看日志,显示电源级别降低,其他没有告警,怀疑是刀箱自带的VC故障,没有日志显示VC故障,找到厂商排查故障,没有找到问题的点,日志收集拿到原厂分析也没有结论,把设备按照刀片、VC、OA、刀箱的顺序关机,把整个刀箱关机后等一会在重启,过程很长,故障依然存在。从现象上来看VC故障是最大的,登录VC没有任何问题的,没有报错,也怀疑是刀箱中板的问题,换刀箱这是最坏的打算。心理还是报有一丝希望的,总感觉问题要解决了。

经过反复的研究决定先把刀箱的降级处理,厂商发来的刀箱上有3个电源,加上本身有一个电源的备件,采用N+N的模式,刀箱的网络恢复了,折磨我们2天的故障解决了,告诉厂商在给配置2个电源,节后把其他的电源配置上。彻底解决硬件问题。

刀片网络恢复后,虚拟机的网络到网关不通,在同一个刀片里的虚拟机互相之间可以通,我们又排查了虚拟机、虚拟化平台的虚拟交换机,看不到任何问题。虚拟化平台时hyper-V,懂这个虚拟化产品的人不是很多,大多都是懂基本的操作,懂刀箱的人不懂虚拟化,懂虚拟化的人不懂刀箱,对于我懂交换机的只能考经验分析了,找人排查交换机上,导出备份,查看少了我们正常使用的网段,添加后,测试虚拟机的网络正常了。

写的可能没有突出此次故障处理中又多难,局限性多大,这是我到现在职业生涯中遇到的最大难题,也是不会忘记的,这次经历增加的我的人生阅历。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值