nvidia-smi 失效解决

服务器重启后,尝试运行模型时出现RuntimeError,提示CUDA设备不可用。通过nvidia-smi检查发现驱动通信失败。进一步确认CUDA版本和驱动版本存在,推测是Ubuntu自动更新导致的问题。解决方法包括使用dkms安装和重建NVIDIA驱动,最终恢复nvidia-smi的正常显示。
摘要由CSDN通过智能技术生成

服务器重启后,跑模型发现:

RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False. If you are running on a CPU-only machine, please use torch.load with map_location=torch.device('cpu') to map your storages to the CPU.

然后使用 nvidia-smi来查看:

>>nvidia-smi 
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
 

很明显,驱动掉了。

然后查看cuda:

>> nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Tue_May__3_18:49:52_PDT_2022
Cuda compilation tools, release 11.7, V11.7.64
Build cuda_11.7.r11.7/compiler.31294372_0

再看驱动:

>> ls /usr/src | grep nvidia
nvidia-525.89.02

还好,都在。应该是ubuntu 重启时自动更新了。那就好解决了~

>> sudo apt-get install dkms

>>sudo dkms install -m nvidia -v 525.89.02

再运行 nvidia-smi ,然后熟悉的界面出现了

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值