记一次PCIe故障:多张网卡同时发包造成宕机
重启后查看messages,在log中发现GHES报错error status block;于是在grub中关闭GHES:ghes.disable=1,并进行重启;重启后问题不再复现,传输速度更快且稳定。经查阅资料,GHES作为固件的纠错方式之一,不能和Linux的EDAC纠错机制同时使用,因为BIOS和操作系统在读取error寄存器时会相互竞争.而海光服务器因为默认使用的mce无法适配,使用的正是edac_mce_amd模块。
原创
2023-06-18 19:54:49 ·
1148 阅读 ·
1 评论