RAS--APEI 报错解析流程(1)

一只小菜鸟-BIOS

已于 2024-07-24 19:29:35 修改

阅读量2.2k

点赞数 27

分类专栏： BIOS UEFI 文章标签： UEFI BIOS 驱动开发

于 2024-07-24 16:34:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43561214/article/details/140666535

版权

BIOS 同时被 2 个专栏收录

19 篇文章

订阅专栏

18 篇文章

订阅专栏

RAS--APEI 报错解析流程(2)

Ras 通常包括内存 PCIE CPU的错误，其中错误的汇报可通过APEI Table去进行汇报

ACPI Platform Error Interfaces (APEI)

此table的作用是提供Hardware error的相关信息给系统，Firmware与系统沟通桥梁

APEI consists of four separate tables:

• Error Record Serialization Table (ERST)

• Boot Error Record Table (BERT)

• Hardware Error Source Table (HEST)

• Error Injection Table (EINJ)

硬件错误源是向OSPM发出错误警报的任何硬件单元。硬件错误源的例子如下:

处理器机器检查异常(例如，mc#)
芯片组错误消息信号(例如，SCI, SMI)
I/O总线错误报告(例如，PCI Express根端口错误中断)
I/O设备错误

Hardware Error Source Table (HEST) Hest 包含系统下错误汇报Table,包含内存PCIE和CPU的错误结构体，用于OSPM和BIOS的错误传递解析

Hardware Error Source Table provides the platform firmware a way to describe a

system’s hardware error sources to OSPM.

HEST提供以下table给OS做配置：

• IA-32 Architecture Machine Check Exception

• IA-32 Architecture Corrected Machine Check

• PCI Express Root Port AER Structure

• PCI Express Device AER Structure

• PCI Express Bridge AER Structure

HEST提供以下table用来report硬件错误：

• Generic Hardware Error Source

Table是通过Type和SourceId进行区分

//

#define EFI_ACPI_6_2_IA32_ARCHITECTURE_MACHINE_CHECK_EXCEPTION 0x00

#define EFI_ACPI_6_2_IA32_ARCHITECTURE_CORRECTED_MACHINE_CHECK 0x01

#define EFI_ACPI_6_2_IA32_ARCHITECTURE_NMI_ERROR 0x02

#define EFI_ACPI_6_2_PCI_EXPRESS_ROOT_PORT_AER 0x06

#define EFI_ACPI_6_2_PCI_EXPRESS_DEVICE_AER 0x07

#define EFI_ACPI_6_2_PCI_EXPRESS_BRIDGE_AER 0x08

#define EFI_ACPI_6_2_GENERIC_HARDWARE_ERROR 0x09

#define EFI_ACPI_6_2_GENERIC_HARDWARE_ERROR_VERSION_2 0x0A

#define EFI_ACPI_6_2_IA32_ARCHITECTURE_DEFERRED_MACHINE_CHECK 0x0B

简单列举HEST相关的结构体，包括多种类型错误的结构体

HEST中常用到的 Type9

///

/// Generic Hardware Error Source Structure Definition

///

typedef struct {

UINT16 Type;

UINT16 SourceId;

UINT16 RelatedSourceId;

UINT8 Flags;

UINT8 Enabled;

UINT32 NumberOfRecordsToPreAllocate;

UINT32 MaxSectionsPerRecord;

UINT32 MaxRawDataLength;

EFI_ACPI_6_0_GENERIC_ADDRESS_STRUCTURE ErrorStatusAddress;

EFI_ACPI_6_0_HARDWARE_ERROR_NOTIFICATION_STRUCTURE NotificationStructure;

UINT32 ErrorStatusBlockLength;

} EFI_ACPI_6_0_GENERIC_HARDWARE_ERROR_SOURCE_STRUCTURE;

GHES中是可以包含多个错误入口

系统下ACPI Table的解析

OS路径： /sys/firmware/acpi/table

工具IASL 可使用apt-get install iasl 安装

使用命令iasl -d XXX 生成XXX.dsl

1列举几个HEST table中的小表

（1）EFI_ACPI_6_2_IA32_ARCHITECTURE_MACHINE_CHECK_EXCEPTION type 0

（2）EFI_ACPI_6_2_IA32_ARCHITECTURE_CORRECTED_MACHINE_CHECK type=1

(3)最常用的是Type9 EFI_ACPI_6_2_GENERIC_HARDWARE_ERROR

内存 CPU PCIE 都可以通过Type9类型汇报，通过Source ID区分报错类型

1.PCIE 的RAS 流程

（1）BIOS中添加GHES 的Table，PCIE 主要包括两种常用类型错误Dev段和Root端的错误以及UCE CE

Source id通常包括：

PCIE_DEVICE_SOURCE_ID (0x101)

#define PCIE_BRIDGE_SOURCE_ID (0x102)

#define PCIE_RP_GHES_CORR_SRC_ID (0x200)

#define PCIE_RP_GHES_UNCORR_SRC_ID (0x201)

#define PCIE_DEV_GHES_CORR_SRC_ID (0x202)

#define PCIE_DEV_GHES_UNCORR_SRC_ID (0x203)

#define PCIE_BRIDGE_GHES_CORR_SRC_ID (0x204)

#define PCIE_BRIDGE_GHES_UNCORR_SRC_ID (0x205)

（2）注册相关的SMI

1.注册SMI ApuRasDispatch gFchSmmApuRasDispatchProtocolGuid,当PCIE产生错误，CPU的寄存器会存在错误状态，IOHCRAS会有错误的信息，同时会产生SMI的中断，BIOS会读取错误信息同时去扫描PCIE 的配置空间AER Capbility的错误状态填写到APEI HEST GHES type9中对应的PCIE错误结构体,同时汇报ipmi 错误到BMC和清除错NBIO Global Status误状态，AER 错误可以OS 清除

Status = gSmst->SmmInstallProtocolInterface (

&FchSmmDispatcherHandle,

FchProtocolListRas[0].Guid,

EFI_NATIVE_INTERFACE,

FchProtocolListRas[0].Interface

FchSmmApuRasDispatchRegister()

Status = ApuRasDispatch->Register (

HygonApuRasDispatch,

HygonNbioRasSmiCallback,

&ApuRasRegisterContext,

&ApuRasHandle

);

///

/// RAS SMI Node

///

typedef struct _FCH_SMM_APURAS_NODE {

EFI_HANDLE DispatchHandle; ///< Dispatch Hangle

FCH_SMM_APURAS_REGISTER_CONTEXT Context; ///< Register context

FCH_SMM_APURAS_HANDLER_ENTRY_POINT CallBackFunction; ///< SMM handler entry point

struct _FCH_SMM_APURAS_NODE *FchApuRasNodePtr; ///< pointer to next node

} FCH_SMM_APURAS_NODE;

typedef struct {

UINT8 Socket; ///< Socket number

UINT8 LogicalDie; ///< Logical Die Id

UINT8 IohubPhysicalDie; ///< Iohub physical Die Id

UINT8 Rb; ///< Root bridge number

UINT8 Bus; ///< Bus number

UINT8 Order; ///< Priority 0-Highest (reserved), 0xFF-Lowest (reserved)

} FCH_SMM_APURAS_REGISTER_CONTEXT;

NbioRasSmiCallback

Error 状态：

NBIO Global Status Lo

NBIO Global Status Hi

（3）OS下错误解析，对于Root端的错误会记录一条GHES的错误表，当错误为Dev端，有PCIE设备可以有多个Bus：dev:fuc 会在每个fun产生错误状态这时候会记录多条报错信息

2.内存ECC的RAS 流程

(1)BIOS添加GHES的Table

Source id 0x500

(2)内存的smi注错，gFchSmmSwDispatch2Protoco 常用的software smi 的Dispatch,触发方式向SMI port 写如对应的SwValue

SMIcmdPort可通过查看ACPI FACP table查看通常为0xB2 0xB0

(3)SMI的产生可通过向IO端口0xB0写入SwValue=0x80 触发对应的callback,硬件上会通过MCA的status overflow产生中断。

MCA BANK:

每一个错误报告的bank都同处理器中一个特定的硬件单元(或一组硬件单元)相关联。

使用RDMSR或WRMSR来对这些寄存器进行读写。

全局相关的寄存器组定义了如何开启 MCA 的能力。

每一个BANK则具体对应一类错误源，如 CPU，MEMORY，CACHE，CHIPSET 等等。

每一个BANK都可以进行单独的控制，这样软件就能够针对每一个BANK使用特定的方式进行处理。

内存的MCA BANK

如果VAL(vaild flag)被设置了,那么每一个 IA32_MCi_STATUS MSR都包含了一个machine-check error的相关信息。

软件通过显式地写入全0来清除 IA32_MCi_STATUS MSRs。对任何位写入1将会导致#GP.

(3)MCA_STATUS_XX产生错误状态并且over则会产生SMI ,BIOS会去扫描每个MCA bank定位到错误的寄存器，可以读到错误地址，然后解析地址汇报错误信息填写到GHES 内存结构体中

(4) OS下去检测到错误Table 状态打印dmesg 信息，Fru_text定位到错误内存槽位

3.CPU的RAS 流程

（1）BIOS中添加GHES 的Table source id 0x1000

(2)注册SMI gFchSmmSwDispatch2ProtocolGuid //和内存SMI 是一个SMM Dispatch SWVALUE=0x84

• Error Injection Table (EINJ) 注错 Table

系统下CPU的注错：使用EINJ

CPU 的mca bank

(3) os下的Hard ware error信息 BIOS触发smi 后去填写对应结构体

后续梳理BERT 和OS 解析详细流程

一只小菜鸟-BIOS

博客等级

码龄7年

54
原创

699
点赞

755
收藏

2490
粉丝

关注

私信

热门文章

分类专栏

BIOS 19篇
UEFI 18篇
CMOS 1篇
CXL 1篇

展开全部收起

上一篇：: BIOS 初始化之SEC

下一篇：: RAS--APEI 报错解析流程(2)

最新评论

RAS--APEI 报错解析流程(2)
一只小菜鸟-BIOS: typedef struct { UINT8 Type; UINT8 Length; EFI_ACPI_6_2_HARDWARE_ERROR_NOTIFICATION_CONFIGURATION_WRITE_ENABLE_STRUCTURE ConfigurationWriteEnable; UINT32 PollInterval; UINT32 Vector; UINT32 SwitchToPollingThresholdValue; UINT32 SwitchToPollingThresholdWindow; UINT32 ErrorThresholdValue; UINT32 ErrorThresholdWindow; } EFI_ACPI_6_2_HARDWARE_ERROR_NOTIFICATION_STRUCTURE; 在addghest传入
RAS--APEI 报错解析流程(2)
一只小菜鸟-BIOS: [code=csharp] EFI_ACPI_6_2_GENERIC_HARDWARE_ERROR_SOURCE_STRUCTURE gNbioErrSrc = { EFI_ACPI_6_2_GENERIC_HARDWARE_ERROR, // Type NBIO_SOURCE_ID, // SourceId 0xffff, // RelatedSourceId 0x00, // Flags 0x01, // Enabled 0x00000001, // NumberofRecordsToPreAllocate 0x00000001, // MaxSectionsPerRecord MAX_ERROR_BLOCK_SIZE, // MaxRawDataLength { 0x00, 0x40, 0x00, 0x04, 0x00 }, // ErrorStatusAddress. Address will be filled in runtime { HARDWARE_ERROR_NOTIFICATION_POLLED, // UINT8 NotifiyType = Polled sizeof (EFI_ACPI_ [/code]
RAS--APEI 报错解析流程(2)
IT2B: 问一下这个ghes poll interval在bios的哪里配置的？
RAS--APEI 报错解析流程(1)
一只小菜鸟-BIOS: RAS 是CPU的特性，一般是CPU厂商提供的参考代码就要有Ras的模块，EDKII上可能没有,不同的CPU也会有差异
RAS--APEI 报错解析流程(1)
好想好想她: 请教下，文章里的代码是参考哪里？ edk2 edk2-platform github仓库都没有呢

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一只小菜鸟-BIOS 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。