【重启后nvidia-smi 命令出现错误】

本文档介绍了在Linux系统中遇到nvidia-smi命令失败的问题,原因是无法与NVIDIA驱动通信。解决步骤包括安装dkms,尝试安装nvidia-dkms包,如果遇到错误则调整GCC驱动优先级,最后重新检查nvidia-smi的状态。关键步骤包括dkms install命令的使用和解决binary package not found错误。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用 nvidia-smi 命令出现错误

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

安装过程出现错误

ERROR (dkms apport): binary package for nvidia: ..* not found
Error! Bad return status for module build on kernel: 5.13.0-51-generic (x86_64)

一、 nvcc -V
在这里插入图片描述

二、 ls /usr/src | grep nvidia
在这里插入图片描述

三、 安装dkms

sudo apt-get install dkms

四、 安装nvidia dkms

sudo dkms install -m nvidia -
### 服务器重启后 `nvidia-smi` 显示 "No devices were found" 的解决方案 当遇到 `nvidia-smi No devices were found` 错误时,通常是因为 Nouveau 内核驱动正在被系统使用,这会阻止 NVIDIA 驱动正常加载。以下是详细的解决方法: #### 方法一:禁用 Nouveau 驱动并重新安装 NVIDIA 驱动 为了确保 NVIDIA 驱动能够正确加载,建议先禁用 Nouveau 驱动。 1. **确认当前使用的显卡驱动** 使用命令查看当前是否启用了 Nouveau 或者 NVIDIA 驱动: ```bash lsmod | grep -E 'nvidia|nouveau' ``` 2. **移除 Nouveau 模块** 如果检测到 Nouveau 正在使用,则可以通过以下命令将其卸载: ```bash sudo rmmod nouveau ``` 3. **防止 Nouveau 自启动** 创建或编辑 `/etc/modprobe.d/blacklist-nouveau.conf` 文件来黑名单化 Nouveau: ```bash echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf echo "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf ``` 4. **更新 initramfs** 更新初始 RAM 文件系统以应用更改: ```bash sudo update-initramfs -u ``` 5. **重新引导系统** 执行重启操作使配置生效: ```bash sudo reboot ``` 6. **安装/重新安装 NVIDIA 驱动** 下载最新的 NVIDIA Linux 驱动程序包,并按照官方说明进行安装: ```bash sh ./NVIDIA-Linux-x86_64-XXX.XX.run --no-opengl-files ``` 7. **验证安装情况** 完成上述步骤之后再次检查 GPU 是否可以被识别: ```bash nvidia-smi ``` 如果一切顺利的话,此时应该可以看到正常的 GPU 输出信息[^1]。 #### 方法二:设置持久模式 (Persistence Mode) 有时即使完成了以上所有步骤,在某些情况下仍然可能出现短暂性的无法找到设备的情况。这时可以尝试启用持久模式(Persistence Mode),它可以让 CUDA 应用更稳定地访问 GPU 资源而不必每次都初始化整个硬件栈。 执行如下命令开启此功能: ```bash sudo nvidia-smi -pm 1 ``` 该指令会让 NVIDIA 驱动保持常驻内存状态,从而减少因频繁上下电而导致的问题发生概率。 #### 方法三:检查 BIOS 设置 另外值得注意的是,部分服务器主板可能默认开启了集成图形输出选项(Integrated Graphics Output),这也可能导致外部独立显卡不被操作系统所识别。因此进入BIOS界面查找相关设置项并将之关闭也是一个值得考虑的方向。 ---
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值