简介
最近小编在工作的时候遇到一个问题,反馈的说是服务器开机的时候死机了,出现以下日志字段:
但是重启后就恢复了,想确认问题来源。
初步排查
后续在日志中排查boot.log\messages.log奇怪的是都没有当时的问题。
然后查看当时问题截图,但是从日志来看系统已经运行了5470000秒了,当时问题发生时截图日志来看,大概是pcie数据链路层发出来的错误,BadTLP , AER 高级错误报告。
报错信息表明可能存在PCI Express(PCIe)设备的数据链路层错误。
“AER: aer_layer=Data Link Layer, aer_agent=Receiver ID” 表明数据链路层错误由PCIe接收器引起。
“AER aer_status: 0x00001000, aer_mask: 0x00006000” 表明错误状态代码为0x00001000,错误状态掩码为0x00006000。
具体涉及到AER (Advanced Error Reporting)。AER错误报告状态0x00001000表示“Timeout”错误,也就是数据接收端在规定时间内未接收到数据,进而超时。
建议
1、可以考虑让硬件厂商在硬件或驱动程序上寻找更深入的信息以进行故障排除和解决方案。