背景介绍
NVIDIA NVLink A100 GPU卡,需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联通过NVSwitch互联,如果仅安装NVIDIA GPU 驱动程序,会导致GPU不能正常使用。详细的NVIDIA-fabricmanager服务安装步骤如下
本文安装方法分为CentOS7.X系统和Ubuntu系统
操作步骤
其中version后面的版本要根据已安装的GPU驱动版本保持一致,否则会出现不匹配问题,GPU驱动版本可通过nvidia-smi查看
nvidia-fabricmanager安装
一、CentOS 7.X
version=470.103.01
yum -y install yum-utils
yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
yum install -y nvidia-fabric-manager-${version}-1
二、Ubuntu
version=470.103.01
main_version=$(echo $version | awk -F '.' '{print $1}')
apt-get update
apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*
启动nvidia-fabricmanager服务
启动nvidia-fabricmanager