高级错误报告
(AER
)是一个内核功能,为 Peripheral Component Interconnect Express
(PCIe
)设备提供增强的错误报告功能。AER
内核驱动程序附加支持 PCIe
AER
功能的 root 端口,以便:
- 在发生错误时收集全面的错误信息
- 向用户报告错误
- 执行错误恢复操作
-
Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Corrected error received: id=ae00 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID) Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: device [8086:2030] error status/mask=000000c0/00002000 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: [ 6] Bad TLP Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: [ 7] Bad DLLP Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: AER: Multiple Corrected error received: id=ae00 Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, id=0000(Receiver ID) Feb 5 15:41:33 hostname kernel: pcieport 10003:00:00.0: device [8086:2030] error status/mask=00000040/00002000
当
AER
捕获错误时,它会向控制台发送错误消息。如果错误可被修复,则控制台输出会发出警告。 -
收集并显示 AER 信息
要收集并显示 AER 信息,请使用
rasdaemon
程序。流程
-
1,安装
rasdaemon
软件包。 -
~]# yum install rasdaemon
2,启用并启动
rasdaemon
服务。 -
[root@localhost ~]# systemctl enable --now rasdaemon Created symlink /etc/systemd/system/multi-user.target.wants/rasdaemon.service → /usr/lib/systemd/system/rasdaemon.service.
3,运行
ras-mc-ctl
命令,该命令显示记录错误的摘要(--summary
选项),或者显示错误数据库中存储的错误(--errors
选项)。 -
[root@localhost ~]# ras-mc-ctl --summary No Memory errors. No PCIe AER errors. No Extlog errors. No MCE errors. [root@localhost ~]# ras-mc-ctl --errors No Memory errors. No PCIe AER errors. No Extlog errors. No MCE errors.