最近在服务器虚拟机上创建深度学习环境,遇到了一些问题,第一个就是 NVIDIA 不允许游戏显卡比如 1060、1080 在虚拟机中工作,NVIDIA 官网说只有 GRid 或者 Tesla 显卡才支持直通,所以策略应该是,让显卡驱动认为你是物理机就 OK 了。下面我们解决一下这个问题。
步骤
1、添加显卡到虚拟机
虚拟机编辑设置——>添加其他设备——>PCI 设备
2、不对虚拟机公开 NX/XD 标记 (这个步骤可能无所谓)
ESXi6.0:虚拟机编辑设置——>不对虚拟机公开 NX/XD 标记
EXSi6.5:虚拟机编辑设置——>CPU——>硬件虚拟化——>取消向客户机系统公开硬件辅助的虚拟化
3、正常安装显卡驱动 (网上有大量资料,不再赘述)
4、修改虚拟机的.vmx 配置文件
问题:安装驱动之后 nvidia-smi 出错,nvidia-smi reports Unable to determine the device handle for GPU ,可能是 vmware 直通的问题,修改其虚拟化的参数;
此处需要修改一下 exsi 中的虚拟机 vmx 配置,找到.vmx 文件,在其底部添加hypervisor.cpuid.v0 = "FALSE"
注:此操作必须在 ESXi6.5 及以上环境进行,否则虚拟机启动报错:TSC_DEADLINE disabled due to Errata; please update microcode to version: 0x3a
5、配置深度学习环境 (网上有大量资料,不再赘述)
6、直连同一显卡的虚