关于header log怎么解析的见:
https://blog.csdn.net/linjiasen/article/details/129823460?spm=1001.2014.3001.5502
1、AER Mask Reg和Header Log Reg的关系
如果PCIe设备实现的AER capability,那么uncorrectable error mask reg和correctable error mask reg就可以针对每种错误来独立地mask。如果Device control reg和PCI command reg中error message report没有使能,那么不管对应的mask reg是什么值,对应的error message都不会发出。也就是说,Device control reg和PCI command中的report control是针对error class的大开关,Advanced Error Reporting Capability的mask reg是针对具体的error type的小开关。
如果error对应的bit被mask,那么即使error被detect到,也只更新AER中的status reg,不会有error message上报给RC,也不会有被记录到header log和first error pointer寄存器。
2、哪些错误会记录Header Log
具体哪些错误会记录header log见下面table中介绍
Table 6-2 General PCI Express Error List
Table 6-3 Physical Layer Error List
Table 6-4 Data Link Layer Error List
Table 6-5 Transaction Layer Error List
需要记录header的错误类型有:Uncorrectable Internal Error(optional)、Poisoned TLP Received、Poisoned TLP Blocked、ECRC Check Failed、UR、Completion Timeout(如果completion timeout prefix/header log capable为1)、Completer Abort、Unexpected Completion、ACS Violation、MC Blocked TLP、AtomicOp Egress Blocked、TLP Prefix Blocked、Malformed TLP。
Completion Timeout比较特殊,需要看 Advanced Error Capabilities and Control Register (Offset 18h)的Completion Timeout Prefix/Header Log Capable bit是否为1。
从Spec上看,linux kernel的宏AER_LOG_TLP_MASKS是不全的
aer.c - drivers/pci/pcie/aer.c - Linux source code (v6.8.8) - Bootlin
3、Completion Timeout Prefix/Header Log Capable
当requester收到Completion timeout错误时候,并且Advanced Error Capabilities and Control reg的Completion Timeout Prefix/Header Log Capable bit为1时,将会记录request TLP的prefix/header。
Completion timeout可能是因为错误的配置,系统失效或者异步remove导致的。为了让系统软件区分completion timeout error产生后能否继续进行正常操作(因为错误的配置或者系统失效导致的就不能继续进行正常操作,因为异步remove导致的则可以继续正常工作),spec强烈推荐requester记录completion timeout相关的额request TLP的prefix和header。