问题描述
数据中心出现连续不在线告警,现场查看对应位置服务器反复重启,使用远程KVM服务时显示无信号。
分析解决过程
先来一波ssp工人的常规常规操作:一看二切换
首先查看BMC日志并无硬件异常报错,再通过切换BIOS主备版本排除BIOS版本异常的可能。
上手段:最小化测试
现场拆机拆卸其他外插件(我的最快纪录是R5300拆机五分钟),然后安装1CPU、1内存条、1主板后上电,服务器上电成功,说明主板和CPU0、CPU1槽位的内存条均正常。
更换CPU0槽位的CPU上电,上电成功说明2颗CPU正常。
将2颗CPU分别安装至CPU0、CPU1槽位,将2根内存条分别安装至对应的1和13槽位后上电。服务器上电成功说明2根内存条正常。
继续测试其它内存条,发现有3根其他厂家的内存条不正常,且频率不同。
处理结果
分析故障是由于配置3根不同厂家和频率的内存条导致,将内存条更换为同厂家同规格的内存条,上电成功,安装其他外插件服务器上电成功并进入系统,观察问题不再复现问题解决。