文章目录
前言
课题组一台新的服务器,希望使用esxi平台让服务器的运维更加方便。从最开始动手到成功跑通pytorch前前后后花了四天时间,在网上搜索了很多教程,每个教程都一步步来还是在显卡直通上遇到问题并且网上类似问题的解决方法都无效,最后还是误打误撞解决了显卡直通这个大麻烦,所以记录一下。
一、ESXI安装及配置
1.安装过程
当时安装没有经验,边看教程边装,因此没有图片记录,可以参考这篇文章:ESXI安装
使用rufus制作启动盘:Rufus中文官网
二、显卡直通
1.esxi平台更新
服务器的显卡型号为Nvidia L40,esxi7.0u3的硬件管理识别不了,不确定是否对显卡直通有影响,但是尽可能排除所有不对劲的地方
通过shell登陆宿主机更新esxi8.0u2版本之后显卡型号正常识别(直接shell更新就好,更新完重新引导一下就ok)
在
sysin下载,仅需要以depot结尾的更新包版(地址就不放了,百度可以找到)
首先进入维护模式
然后就可以进行升级操作,需要先打开宿主机的SSH服务,在通过shell登陆,这里用Xshell登陆
``
#第一步
[root@localhost:~] esxcli software sources profile list -d /vmfs/volumes/data1/ESXi-7.0U3m-21686933-standard-depot.zip
Name Vendor Acceptance Level Creation Time Modification Time
----------------------------- --------- ------------------ ------------------- -----------------
ESXi-7.0U3m-21686933-standard sysin.org CommunitySupported 2023-05-03T00:00:00 2023-05-03T00:00:00
#第二步,选择版本
esxcli software profile update -d /vmfs/volumes/data1/ESXi-7.0U3m-21686933-standard-depot.zip -p ESXi-7.0U3m-21686933-standard
#更新完毕后重新引导宿主机即可
2. 网页端设置显卡直通
如果显卡并非直通状态,需要在宿主机硬件里将显卡的直通切换为活动
1)创建虚拟机
选择预留内存,不然会出现问题
一定要选择EFI引导,并且取消勾选安全引导
虚拟机推荐使用带有图形化界面的版本,有些设置在图形化界面操作很简单,用命令行就很麻烦,比如后边的硬盘扩容操作。
再添加PCI设备以及添加参数,pciPassthru.64bitMMIOSizeGB填多少我也没弄明白,但是填这么多能行,填小了可能出现
模块“DevicePowerOn”打开电源失败错误
pciPassthru.64bitMMIOSizeGB = 144<