NVIDIA安装 Fabric-manager,解决nvcc、驱动正常,但GPU无法正常使用问题
引言
在使用NVIDIA显卡(V100/A100/A30等)时,需要安装对应的驱动,但是有时还要安装与驱动版本对应的 nvidia-fabricmanager 服务,使 GPU 卡间能够通过NVSwitch互联。
问题
当报错信息为以下情况时需要安装nvidia-fabricmanager 服务
ubuntu安装nvidia-fabricmanager
version=470.103.01 #已经安装的驱动版本
main_version=$(echo $version | awk -F '.' '{print $1}')
apt-get update
apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*
CentOS 安装nvidia-fabricmanager
version=470.103.01 #已经安装的驱动版本
yum -y install yum-utils
yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
yum install -y nvidia-fabric-manager-${version}-1
查验安装结果
启动服务
systemctl start nvidia-fabricmanager
查看状态
systemctl status nvidia-fabricmanager
设置开机自启动
systemctl enable nvidia-fabricmanager