安装fabricmanager解决print(torch.cuda.is_available())报错NumCudaDevices()

安装fabricmanager

问题:print(torch.cuda.is_available())报错但是CUDA和cudnn都安装完成,版本对应良好,报错如下

UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at …/c10/cuda/CUDAFunctions.cpp:109.)
return torch._C._cuda_getDeviceCount() > 0

解释:NVIDIA NVLink A100 GPU卡,需额外安装与驱动版本对应的 nvidia-fabricmanager 服务使 GPU 卡间能够互联通过NVSwitch互联,如果仅安装NVIDIA GPU 驱动程序,会导致GPU不能正常使用。安装步骤如下:

网站下载对应驱动版本的fabricmanager:Index of /compute/cuda/repos/ubuntu2204/x86_64 (nvidia.cn)

#若有旧的版本,请删去后重新下载

#手动安装
sudo apt-get install ./nvidia-fabricmanager-535_535.104.05-1_amd64.deb
#解除禁用
sudo systemctl enable nvidia-fabricmanager
#重启
sudo systemctl restart nvidia-fabricmanager
#检查状态
sudo systemctl status nvidia-fabricmanager
#安装成功
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值