事情起因
家里有一台Dell R730XD
服务器(垃圾佬最爱),部署的Vmware ESXi 6.7
虚拟化环境,计划安装一张GPU加速卡,提供vgpu给虚拟机,为媒体服务器,及两台升腾C92瘦终端
的虚拟桌面提供视频解码能力
设备选择
经多方比较,结合自身需求,选择了当年的最强王者(过时的古董)Nvidia Grid K2加速卡,此卡无需vGPU授权,性价比高(便宜),具备两颗2013年强劲的GK104核心GPU,8G显存,支持2-16个vGPU,完全满足我的需求(qiong)
人生若只如初见
在海鲜市场150块钱迎娶回家
迫不及待的上机测试,奈何卖家把电源线发错了,此卡需要独立供电,
又网购了一根8P转8+8P电源线,实际使用是8P转8P+6P,经过三天的热切期待,终于到货,可以上机测试了
云雨初试
先分配一个K240Q vGPU给虚拟机,看能否识别,在线视频播放正常,真不错
后测试 4K H264解码也没有问题
一百多块钱太值了
然而好景不长
当我分配vGPU给更多虚拟机时,她开始给我甩脸子了,ESXi直接崩了,一点情面也没给
我到底哪里错了?
于是我苦苦思索了三天
尝试直接直通GPU给虚拟机,问题依然时不时的发生
尝试切换vGPU的型号,从K200到K280Q,依然是日常性崩溃
尝试重新安装虚拟化前端驱动安装包和后端驱动VIB文件安装包
尝试修改虚拟机vmx文件
尝试修改BIOS的UEFI以及SR-IOV模式设置,都没有解决我们的问题
真相逐渐揭晓
当我重新安装host后端VIB驱动的时候,偶然发现了一丝异常
两个GPU显存数量不一致,而且第二个GPU不支持ECC,难道是厂家的一种特殊设计?
为此我又上网查询了其他人的显存信息是如何打印的,果不其然,其他人的两个GPU显存信息是一致的
验证一下我的想法
如果第二个GPU有问题,那么意味着我只要都从第一个GPU分配vGPU给虚拟机,那就不会有问题,测试了一下确实如此
写在最后
虽然它有它的问题,也是怪我太过于心急了,就这样吧,和它相处我也得到了许多,习惯性给卖家一个好评吧