ubuntu24.04—nvlink未激活: 报错排查与解决

由于ubuntu24.04与windows驱动不同,未集成nvlink驱动,且nvlink的驱动fabricmanager版本可能和显卡驱动本身不同,就无法激活nvlink:

用 nvidia-smi nvlink -s会发现未激活

问题1 nvlink 未激活(Inactive)

1. 先用systemctl status nvidia-fabricmanager.service查看报错

发现驱动接口和驱动版本不匹配:

fabric manager NVIDIA GPU driver interface version 535.216.01 dont match with driver version 535.183.01

2. 删除过高的接口interface版本 (Remove all nvidia-fabricmanager)

sudo apt remove nvidia-fabricmanager*

3.下载对应驱动的nvlink驱动版本(Download the exact nvidia-fabricmanager version corresponding to the Driver Version):

https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/nvidia-fabricmanager-530_530.30.02-1_amd64.deb

我这下载的是:

	1. nvidia-fabricmanager-535_535.183.01-1_amd64.deb

	2.nvidia-fabricmanager-dev-535_535.183.01-1_amd64.deb

4.安装驱动接口 (Install nvidia-fabricmanager)

sudo dpkg -i nvidia-fabricmanager-530_530.30.02-1_amd64.deb

或者

sudo apt install ./nvidia-fabricmanager-530_530.30.02-1_amd64.deb

5. 启动工厂管理服务 (Start nvidia-fabricmanager)

sudo systemctl daemon-reload

sudo systemctl start nvidia-fabricmanager

问题2 报错:“NV_WARN_NOTHING_TO_DO”

同样用systemctl status nvidia-fabricmanager.service查看报错如上,

这个是硬件没检查到nvlink,重启服务器即可

Reference

  • https://blog.csdn.net/qq_27815483/article/details/140514420?spm=1001.2101.3001.6650.3&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ECtr-3-140514420-blog-139062954.235%5Ev43%5Epc_blog_bottom_relevance_base6&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ECtr-3-140514420-blog-139062954.235%5Ev43%5Epc_blog_bottom_relevance_base6&utm_relevant_index=6

  • https://forums.developer.nvidia.com/t/problem-starting-fabricmanager-in-ubuntu-20-04-lts/255215/7

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值