VMware vSphere BitFusion介绍
VMware在2019年8月收购了BitFusion,后者是硬件加速设备虚拟化领域的先驱,重点关注GPU技术。
BitFusion 提供了一个软件平台,可将特定的物理资源与环境中所连接的服务器分离,通过网络的方式让多个Client共享GPU计算能力。
VMware一直没有自己的GPU虚拟化技术,通过BitFusion终于补上了GPU虚拟化这块空白。
Bitfusion client运行AI / ML应用程序,该应用程序通过网络共享Bitfunsion Server上的直通GPU。
Bitfusion 可以将GPU内存划分为任意大小不同的切片,然后分配给不同的客户端以供同时使用。
Bitfusion 可以为VM和Container远程提供GPU计算能力。
Bitfusion 的 GPU 资源池有点类似于存储区域网络 SAN (Storage Attached Network),所以也有人把它叫作 GPU Attached Network。
1. 配置NVIDIA显卡直通模式
确认NVIDIA显卡所在ESXi主机BIOS中Memory Mapped I/O above 4GB启用
配置ESXI主机上的显卡为直通模式,因为需要配置到BitFusion虚机上;
勾选所有NVIDIA显卡;
配置完成后需要重启一次,重启后就可以看到直通显卡。
2. 部署 BitFusion Server
官网下载Bitfusion OVA安装包
这里注意 Extra configuration里的pciPassthru.64bitMMIOSizeGB = 256,部署完bitfusion虚机后,需要根据实际显卡内存系数进行调整。
注意vCenter GUID, vCenter URL和vCenter TLS Certificate Thumbprint
配置密码和IP地址等信息(建议MTU配置为9000)
可以配置多个端口用于数据传输(可选)
OVF导入完成后,不要开机。
编辑虚机:
1. 调整CPU和内存,内存大小为显卡总内存 * 1.5
2. 添加网卡(默认只有1块网卡)
3. 添加所有直通显卡
修改虚机高级参数
pciPassthru.64bitMMIOSizeGB={n}
where n equals (num-cards * size-of-card-in-GB) rounded up to NEXT power of 2:
example A: 2 16GB cards => 2 * 16 => 32 => rounded to next power of 2 = 64
example B: 3 16GB cards => 3 * 16 => 48 => rounded to next power of 2 = 64
配置完成后打开BitFusion电源,等待10分钟左右,BitFusion会自动注册Plugin,刷新浏览器。
打开BitFusion管理界面
注意BitFusion需要ESXi分配vSphere Enterprise Plus License,否则会提示License无效。
3. 部署 BitFusion Client
注意:目前仅支持RHEL/Centos 7, Ubuntu 18.04/16.04
部署一台CentOS7虚机,不要开机,确认Run VMware Tools Scripts全部勾选;
右击CentOS 7 虚机,启用bitfusion client;
选择 For a client;
将CentOS7虚机开机,然后执行以下命令安装bitfusion client
安装bitfusion-client
# yum install -y epel-release
# rpm --import https://packages.vmware.com/bitfusion/vmware.bitfusion.key
# yum install -y https://packages.vmware.com/bitfusion/centos/7/bitfusion-client-centos7-2.0.0-11.x86_64.rpm
将需要使用bitfusion的账号加入bitfusion group,我这里使用root账号
# Example: add “root” to the bitfusion group
$ sudo usermod -aG bitfusion root
测试bitfusion client是否部署成功;
# connect to bitfusion and list all gpu
$ bitfusion list_gpus
- server 0 [10.10.10.11:56001]: running 0 tasks
|- GPU 0: free memory 15109 MiB / 15109 MiB
|- GPU 1: free memory 15109 MiB / 15109 MiB
|- GPU 2: free memory 15109 MiB / 15109 MiB
如果成功显示bitfusion server上配置的直通显卡信息,恭喜你配置成功。
下一篇文章演示:VMware BitFusion 再探二(功能测试)