1.起因
发现 Intel® Xeon® Silver 4110 CPU 使用过程中出现降频,原本2.1GHz 的频率降到只有800MHz
2. 排查方案:先从OS和BIOS的设置来排查:
OS: 检查是性能模式
cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor|uniq
performance
BIOS:
我的是lenovo服务器,型号ThinkSystem SR570
经检查
powerpolicy=‘Maximum Performance’
turbo_allowed=NO
按理CPU应该运行在定频模式,即CPU频率应该为2.1GHz。
3. 整改方案1:bios调整允许CPU睿频
重启机器后,发现CPU依然运行在800MHz
4. 排查方案2:其实之前已经注意到BMC日志有PSU2和CPU Degrade的报错
(1)怀疑和PSU2故障有关,但是PSU1是正常的,单电源的功率上限是550W,且现有的服务器单电源也足以支持CPU超频,遂排除这个可能。
(2)可能和CPU Degrade状态有关,要想办法解除这个状态,使CPU恢复正常状态。
经查Lenovo官方文档:
https://datacentersupport.lenovo.com/us/en/products/servers/system-x/system-x3650-m5/8871/solutions/ht503114-event-log-warning-processor-x-is-in-a-degraded-state-lenovo-x86-servers
我的机型和XCC版本、UEFI版本并不在列表中,但也是2018年的旧版本。
尝试升级也许可以解决。
5. 问题解决
将XCC版本升级至7.22,观察CPU频率已经正常,CPU Degrade状态消失
PS:升级XCC只会引起bmc重启,不会引起整机重启,所以升级过程不影响OS运行,当然前提是ipmitool watchdog关闭的情况下。