场景还原
服务器突然断电,重启后,nvidia-smi
提示:nvidia-smi has failed because it couldn't communicate with the nvidia driver. make sure that the latest nvidia driver is installed and running
。尝试网络上教程使用dkms
处理,但提示有错误,又开始找别的博客,说是gcc
需要升级,好嘛,我升级后还是一样的提示。这种情况之前也出现过,只不过只需要重启就好了,以前也使用过dkms
,但现在竟然也不行了,那么是时候从根源解决问题了。
解决方法
很多博客会告诉你内核原因导致的,要怎么做等等,不想折腾了,直接升级cuda驱动,升级完有问题再说,那么如何快速升级呢?不用卸载原来的cuda
,去cuda
默认安装位置,一般ubuntu
是在:/usr/local/
目录下,使用命令:ll
(你没看错就是两个小ll
)查看一下这个目录,这个时候你会看到cuda
这个目录是个软链接,指向 cuda-版本号目录
,直接用命令:rm cuda
删除软链接。接着去nvidia驱动下载界面下载驱动:https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=22.04&target_type=runfile_local
,下载runfile
类型的,下载完后按官方给出命令执行安装,安装过程提示选择安装CUDA Toolkit
和drive
驱动选项(键盘方向键选择选项, 回车键来确认是选择还是取消选择),其他不用选,然后到install
选项进行安装,然后就没有然后了,就结束了, 你再执行nvidia-smi
, 那个熟悉的界面就回来了, 你再去/usr/local/
目录下执行查看命令ll, 你会发现cuda
目录已经指向了新的版本cuda-版本号
目录了。