背景:
设备启动后直接报设备硬件检查错误日志:
mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 7: 9c00004001010092
mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 17: 8c000040000800c2
有时候是在启动阶段直接报出,如下:
有的时候在运行一段时间会报出:
问题分析:
根据手册《Intel® 64 and IA-32 Architectures Software Developer’s Manual》中,设备使用的 Xeon Gold 6248R对应到的CPUID DisplayFamily DisplaySignature为06_55H。
于是在MCE相关的17章节中,根据不同类型的CPU分类,参考了17.9章节“INCREMENTAL DECODING INFORMATION: INTEL® XEON® SCALABLE PROCESSOR FAMILY, MACHINE ERROR CODES FOR MACHINE CHECK”机器错误代码进行了错误分析:
在06_55H的Intel®Xeon®处理器系列中,PCU控制器的内部机器检查错误的增量错误码报告在寄存器库IA32_MC4中。
同时手册指出