问题描述
多个客户在使用kvm虚拟机搭配T4 GPU创建windows虚拟机时,物理机出现PCIE报错,且报错指向具体的GPU。
测试发现只有在安装GPU驱动时会引发物理机PCIE报错,具体由以下两种情况触发:kvm使用包含T4 GPU 驱动的windows镜像创建虚拟机时
kvm使用纯净的windows镜像创建虚拟机正常,在windows虚拟机下安装GPU驱动时
详细报错示例:#服务器事件日志出现PCIE报错
14b | 06/02/2020 | 16:57:59 | Critical Interrupt PCIE | Bus Uncorrectable error | Asserted
14c | 06/02/2020 | 16:58:14 | Critical Interrupt PCIE | Bus Uncorrectable error | Asserted
#服务器黑盒日志给出了PCIE的报错busno
[Jun 02 2020 16:57:59] : PCIE Error: locate:NPSENTBusNo 62 DevNo 0 FuncNo 0 Bus Uncorrectable Error assertion.
[Jun 02 2020 16:57:59] : Current BIOS Code(Port80): 0x00.
[Jun 02 2020 16:58:14] : PCIE Error: locate:NPSENTBusNo 181 DevNo 0 FuncNo 0 Bus Uncorrectable Error assertion.
[Jun 02 2020 16:58:14] : Current BIOS Code(Port80): 0x00.
其中黑盒日志BusNo 62和BusNo 181分别指向3E:00和B5:00两个GPU。