安装请参考 https://blogs.vmware.com/apps/2018/09/using-gpus-with-virtual-machines-on-vsphere-part-3-installing-the-nvidia-grid-technology.html
GPU兼容性列表查询:https://www.nvidia.com/en-us/data-center/tesla/tesla-qualified-servers-catalog/
在vSphere上使GPU和虚拟机安装NVIDIA GRID技术
主机开启系统维护
esxcli system maintenanceMode set --enable true
(可以自行在网页操作)
将GPU设备设置为vGPU模式
esxcli graphics host set --default-type SharedPassthru
返回Default Graphics Type: SharedPassthru
esxcli graphics host get
安装VIB
安装显卡驱动
esxcli software vib install -v /NVIDIA/NVIDIA-VMware_ESXi_6.5_Host_Driver_390.42-1OEM.670.0.0.7535516.vib
此处的文档路径是在根目录下。
更新显卡驱动
esxcli software vib update -v /tmp/NVIDIA-VMware_ESXi_6.5_Host_Driver_367.128-1OEM.650.0.0.4598673.vib
ESXi主机服务器退出维护模式
esxcli system maintenanceMode set --enable false
安装在ESXi主机上的VIB,并确保正确完成了NVIDIA VIB
esxcli software vib list | grep -i NVIDIA
驱动检查
gpuvm vGPU
驱动检查2
lspci -n | grep 10de
其中10de代表此设备来自NVIDIA公司
0300: Graphics — 代表为图形模式
0302: Compute — 则表明为计算模式,需要通过gpumodeswitch修改为图形模式
GPU卡和ESXi是否可以正常工作
nvidia-smi
检查是否有vgpu资源
nvidia-smi vgpu –s
部分报错failed to initialize NVML:Unknown Error
问题分析
- DELL服务器BIOS设置I/O参数
- ECC设置
- 英伟达显卡驱动版本不对
解决办法
- 设置BIOS内存映射I/O库设置为512GB(默认情况下为56TB)
- 关闭ECC
- 更换显卡驱动版本