t4 tesla 驱动程序_KVM直通Tesla T4 GPU安装windows虚拟机出现PCIE报错指向GPU

在使用KVM和Tesla T4 GPU创建Windows虚拟机时,物理机可能出现PCIE报错。该错误在安装GPU驱动时触发,表现为服务器事件日志的中断错误。解决方法是在Linux宿主机上开机后执行特定命令清除root port SERR信息,以避免不支持的请求导致的系统错误。NVIDIA已向RedHat KVM团队提交BUG,并在后续内核更新中修复了此问题。
摘要由CSDN通过智能技术生成

问题描述

多个客户在使用kvm虚拟机搭配T4 GPU创建windows虚拟机时,物理机出现PCIE报错,且报错指向具体的GPU。

测试发现只有在安装GPU驱动时会引发物理机PCIE报错,具体由以下两种情况触发:kvm使用包含T4 GPU 驱动的windows镜像创建虚拟机时

kvm使用纯净的windows镜像创建虚拟机正常,在windows虚拟机下安装GPU驱动时

详细报错示例:#服务器事件日志出现PCIE报错

14b | 06/02/2020 | 16:57:59 | Critical Interrupt PCIE | Bus Uncorrectable error | Asserted

14c | 06/02/2020 | 16:58:14 | Critical Interrupt PCIE | Bus Uncorrectable error | Asserted

#服务器黑盒日志给出了PCIE的报错busno

[Jun 02 2020 16:57:59] : PCIE Error: locate:NPSENTBusNo 62 DevNo 0 FuncNo 0 Bus Uncorrectable Error assertion.

[Jun 02 2020 16:57:59] : Current BIOS Code(Port80): 0x00.

[Jun 02 2020 16:58:14] : PCIE Error: locate:NPSENTBusNo 181 DevNo 0 FuncNo 0 Bus Uncorrectable Error assertion.

[Jun 02 2020 16:58:14] : Current BIOS Code(Port80): 0x00.

其中黑盒日志BusNo 62和BusNo 181分别指向3E:00和B5:00两个GPU。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值