ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题

安装stable diffusion webui过程中发现的问题。

出现报错:

AssertionError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check

然后来看nvidia-smi 的时候发现驱动挂了

1. nvcc -V,查看cuda是可以看到的

说明之前至少安装cuda的时候没挂,应该是服务器启动的问题。

2.  检查了一下 

# whereis nvidia
nvidia: /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-450.102.04/nvidia

# dkms status
nvidia, 450.102.04, 5.4.0-132-generic, x86_64: installed

说明驱动已经安装。不然的话可以用这个解决方案: 

sudo apt-get install dkms #DKMS全称是Dynamic Kernel Module Support,它可以帮我们维护内核外的这些驱动程序,在内核版本变动之后可以自动重新生成新的模块。
sudo dkms install -m nvidia -v 410.78 #410.78是安装驱动的版本

 ubuntu关机开机后显卡挂了:报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. M... - 简书 (jianshu.com)(138条消息) NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver._nvdia-smi has failed_AI 菌的博客-CSDN博客

3. 原因:linux系统内核更新和nvidia驱动不适配

4. 解决方案:

(138条消息) 显卡驱动报错:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver._显卡报错命令是什么_oyrq的博客-CSDN博客

 期间遇到了另一个问题:


# sudo dkms install -m nvidia -v 450.102.04
Error! Your kernel headers for kernel 5.4.0-144-generic cannot be found.
Please install the linux-headers-5.4.0-144-generic package,
or use the --kernelsourcedir option to tell DKMS where it's located

检查了一下确实没装:

# dpkg-query -s linux-headers-5.4.0-144-generic
dpkg-query: package 'linux-headers-5.4.0-144-generic' is not installed and no information is available
Use dpkg --info (= dpkg-deb --info) to examine archive files.

(138条消息) Linux如何查看内核版本并安装内核头文件linux-headers-generic_高精度计算机视觉的博客-CSDN博客

安装:

 sudo apt-get install linux-headers-$(uname -r)

5. 最后再看nvidia-smi就没问题了

​编辑

进而也可以去解决下一个安装stabel diffusion时出现的bug了:)

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Anaconda Prompt中运行nvidia-smi时,如果出现错误提示"nvidia-smi不是内部或外部命令",可能是由于以下几个原因所致: 1. 有正确安装NVIDIA驱动程序:请确保您已经正确安装了最新的NVIDIA驱动程序,并且该驱动程序正在运行。您可以从NVIDIA官方网站下载并安装最新的驱动程序。 2. 可能未将nvidia-smi的路径添加到系统环境变量中:在Anaconda Prompt中执行nvidia-smi命令时,系统需要知道nvidia-smi可执行文件的位置。您可以手动将nvidia-smi所在路径添加到系统的环境变量中,具体步骤如下: a. 找到电脑中nvidia-smi.exe所在的路径,一般为:C盘 -> Program Files -> NVIDIA Corporation -> NVSMI -> nvidia-smi.exe。 b. 将该路径添加到系统的环境变量中,以便系统能够找到nvidia-smi命令。 3. 可能使用了不正确的驱动版本:推荐使用的驱动版本是nvidia-driver-525,而不是nvidia-driver-525-open。如果您使用了nvidia-driver-525-open,可能会导致nvidia-smi报错"No devices were found"。建议使用nvidia-driver-525来解决此问题。 请根据上述方法逐一检查和尝试解决问题,确保正确安装和配置了NVIDIA驱动程序,并将nvidia-smi的路径添加到系统环境变量中。这样,在Anaconda Prompt中执行nvidia-smi命令时,就不会再出现"nvidia-smi不是内部或外部命令"的错误提示了。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [【pytorchUbuntu+Anaconda+CUDA+pytorch 配置教程 | nvidia-smi 报错 NVIDIA-SMI has failed](https://blog.csdn.net/qq_39441603/article/details/130164991)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [输入‘nvidia -smi显示不是内部或外部指令](https://blog.csdn.net/m0_45521766/article/details/126474351)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值