背景:现网服务器故障crash,服务器重启之后,云主机拉不起来。排查发现服务器cpus核心数发生变化,导致云主机相关服务预留cpu核心数对不上,服务启动失败,云主机拉不起来。
1.服务器上查看cpu相关指标
lscpu
异常机器:
导致这种原因:1.修改了bios中的关于cpu核心数的配置(不同厂商,bios配置项略有差异);2.cpu硬件故障;
2.Linux /sys/devices/system/cpu/目录下相信记录cpu硬件相关信息
其中present表示当前cpu硬件可以支持的cpu核心数,online表示当前在线cpu核心,offline表示当前离线的cpu,这里的离线包括两部分:(1)当前online cpu被设置成离线;(2)表示cpu硬件最大可扩展支持的cpu核心-present的离线核心数。
如图所示:当前cpu硬件支持96核心且全部在线,该cpu硬件最大可扩展到224个核心,所以96-223核心在当前cpu架构下处于离线状态。