介绍通过系统错误管理界面,对运行中的错误记录功能进行配置。
通过该界面,技术支持工程师和系统维护工程师可以对错误记录功能进行配置,包括系统错误记录、QPI viral、memory poison、PCH错误配置等等。具体参数说明如表5-40所示。系统错误管理界面如图5-36所示。
图5-36 系统错误管理界面
表5-40 系统错误管理界面参数参数
功能说明
默认值
系统错误搜集
系统错误记录开关,打开本开关,就可以进行错误纠正,不可纠正错误上报,分别上报给BMC和OS,菜单选项为:
启用:开启系统错误记录功能。
停用:关闭系统错误记录功能。
启用
故障诊断管理
故障诊断管理开关,开启后可以收集MCA、AER和Memory错误相关的寄存器信息,菜单选项为:
启用:开启故障诊断管理功能。
停用:关闭故障诊断管理功能。
启用
McBank故障注入
Mc Bank Error Injection开关,开启本功能后,故障注入的寄存器写功能会开启,菜单选项为:
启用:开启Mc Bank Error Injection。
停用:关闭Mc Bank Error Injection。
停用
软件故障注入
软件Error Injection Support开关,菜单选项为:
启用:开启软件ErrorInjection。
停用:关闭软件ErrorInjection。
停用
病毒模式
系统QPI病毒记录开关,开启本功能后,系统可以对于QPI的错误进行上报,菜单选项为:
启用:开启系统QPI病毒记录功能。
停用:关闭系统QPI病毒记录功能。
停用
PECI开关
PECI开关,菜单选项为:
启用:开启PECI。
停用:关闭PECI。
停用
CMCI中断
CMCI(Corrected Machine Check Interrupt)中断开关,菜单选项为:
启用:开启CMCI中断。如果mcbank上可纠正错误超过阈值,触发CMCI中断,由OS来主导错误处理。
停用:关闭CMCI中断。
启用
芯片组错误搜集
配置芯片组错误菜单,开启本功能后,可以配置芯片组错误搜集选项,菜单选项为:
启用:开启芯片组错误配置。
停用:关闭芯片组错误配置。
停用
ELOG错误记录
EMCA(Enhanced Machine Check Architecture)记录日志开关,菜单选项为:
启用:开启EMCA记录日志功能。使能后,会在内存中分配一块区域,用于存放mcbank的寄存器信息,以及错误的DIMM信息,用于OS访问。且该选项使能后,不可纠正错误可触发SMI中断。
停用:关闭EMCA记录日志功能。
启用
EMCA CMCI-SMI映射
EMCA CMCI-SMI映射选项,菜单选项为:
启用:开启EMCA CMCI-SMI映射。可纠正错误每发生一次,均可触发SMI;MCbank上可纠正错误超过阈值,也会触发SMI,不触发CMCI。
停用:关闭EMCA CMCI-SMI映射。
启用
IOMCA配置
IOMCA使能控制选项,菜单选项为:
启用:开启IOMCA。
停用:关闭IOMCA。
停用
System Memory Poision(配置了IvyBridge CPU的RH8100 V3特有参数)
系统内存Poision开关,菜单选项为:
启用:开启系统内存Poision功能。
停用:关闭系统内存Poision功能。
启用
WHWA配置
WHEA配置菜单。
-
QPI错误搜集
QPI错误使能选项设置,启用本功能后,可以对SMI QPI Lane Failover进行设置。
-
PCI/PCIE错误搜集
PCI/PCIE 错误使能选项设置,启用本功能后,可以对PCIE下的错误选项进行配置。
-
注:System Errors设置为“启用”时能看到故障诊断管理、软件故障注入、Down Stream PECI、PCH Error Enable、EMCA Logging Support、EMCA MCE-SMI enable、EMCA CMCI-SMI Morphing、Enable IOMCA on IIO、QPI Error Enabling、PCI/PCIE Error Enabling等选项。
“Whea配置”界面具体参数说明如表5-41所示。“Whea配置”界面如图5-37所示。
图5-37 Whea配置界面
表5-41 Whea配置参数说明参数
功能说明
默认值
WHEA
Whea(Windows Hardware Error Architecture)支持开关,Whea功能可以为运行的服务器提供丰富的硬件错误报告,以此缩短致命硬件错误的平均恢复时间,菜单选项为:
启用:启用Whea。
停用:关闭Whea。
启用
Whea FFM错误记录
Whea硬件错误记录开关,菜单选项为:
启用:开启Whea FFM日志。
停用:关闭Whea FFM日志。
启用
UEFI错误规范(Haswell CPU无此参数)
设置错误记录的UEFI版本,菜单选项为:
UEFI 2.2
UEFI2.3.1
UEFI 2.4.1
UEFI 2.3.1
PCIE故障注入之WHEA方式
WHEA方式PCIE错误注入开关,菜单选项为:
启用:开启WHEA方式PCIE错误注入。
停用:关闭WHEA方式PCIE错误注入。
启用
PCIE故障注入之EINJ方式
WHEA方式PCIE错误注入Action表开关,菜单选项为:
启用:开启Whea方式PCIe错误注入Action表。
停用:关闭Whea方式PCIe错误注入Action表。
启用
注:WHEA设置为“启用”时可以看到WHEA/UEFI Record Format、UEFI Error Record Rev、Whea FFM Logging、Whea PCIe Error Injection、Whea PCIe Error Injection Action Table等选项。
“QPI Error Enabling”界面具体参数说明如表5-42所示。“QPI Error Enabling”界面如图5-38所示。
图5-38 QPI Error Enabling界面
表5-42 QPI Error Enabling参数说明参数
功能说明
默认值
QPI链路半带宽模式
QPI的lane发生错误时是否触发SMI中断,菜单选项为:
启用:QPI Lane Failover 时触发SMI中断。
停用:QPI Lane Failover 时不触发SMI中断。
启用
“PCI/PCIE Error Enabling”界面具体参数说明如表5-43所示。“PCI/PCIE Error Enabling”界面如图5-39所示。
图5-39 PCI/PCIE Error Enabling界面
表5-43 PCI/PCIE Error Enabling参数说明参数
功能说明
默认值
ErrorPin配置
IIO错误引脚触发方式配置,菜单选项为:
SMI:系统管理中断。
Error Pin:产生对应的错误时,会拉低对应的Error pin。
说明:
当“Error pin Programming for IIO”菜单选项为Error Pin时,会显示Correcter Error Enable、Unorrecter Error Enable及Fatal Error Enable菜单。
SMI
Enable SERR propagation(配置IvyBridge CPU的RH8100 V3特有参数)
是否使能SERR propagation功能,菜单选项为:
Yes:使能SERR propagation功能。
No:关闭SERR propagation功能。
No
Enable PERR propagation(配置IvyBridge CPU的RH8100 V3特有参数)
是否使能PERR propagation功能,菜单选项为:
Yes:使能PERR propagation功能。
No:关闭PERR propagation功能。
No
AER
PCIe高级错误上报开关,菜单选项为:
启用:开启PCIe高级错误上报功能。
停用:关闭PCIe高级错误上报功能。
启用
Correcter Error Enable
可纠正错误使能,菜单选项为:
停用:关闭可纠正错误功能。
Error0
Error0
Unorrecter Error Enable
不可纠正错误使能,菜单选项为:
停用:关闭不可纠正错误功能。
Error1
Error1
Fatal Error Enable
致命错误使能,菜单选项为:
停用:关闭致命错误功能。
Error2
Error2