故障名称
戴尔服务器远程控制卡与BIOS版本问题导致的一次宕机处理过程
故障发生时间
2020-10-21 14:30-15:00
故障描述
1、平台异常,无法打开页面。经确认是平台上的微服务连接数据库异常。
2、无法通过ssh连接数据库服务器。
3、zabbix监控告警,zabbix-agent连接失效。
故障分析
1、通过上述现象,可以确定是数据库服务器宕机了。
2、通过Dell IDRACB 远程控制卡查看服务器的事件日志和生命周期日志。发现有如下警告信息。
此警告出现的时间与服务器出现故障的时间高度一致,因此判断此警告信息就是导致服务器故障的原因。
3、查找官方资料。发现PWR2262 这个故障是由于IDRAC 固件2.00.00.00 或更低版本以及 BIOS 2.8.0 或更低版本时会随机出现这个故障,而且这个故障会导致系统重启或者系统故障。好坑呀。。。
处理过程
根据官方的建议,处理过程如下:
1、到官网下载IDRACB远程控制卡的最新的驱动程序和BIOS的最新版本的驱动程序。
2、在远程控制卡管理系统里上传新的驱动程序。
3、重启服务器,完成远程控制卡和BIOS的版本升级。
经验总结
1、加强对于公司服务器硬件驱动程序的管理。确保服务器硬件正常运行。