问题:nvidia驱动内核安装失败
某天服务器里的docker突然又掉了,重启服务器后发现显卡驱动掉了,但重新安装却报以下的错误:
在安装时,报内核安装失败的错误,日志文件如下,报错后就停止安装了
An alternate method of installing the NVIDIA driver was detected. (This is usually a package provided by your distributor.) A driver installed via that method may integrate better with your system than a driver installed by nvidia-installer.
Please review the message provided by the maintainer of this alternate installation method and decide how to proceed:
The NVIDIA driver provided by Ubuntu can be installed by launching the "Software & Updates" application, and by selecting the NVIDIA driver from the "Additional Drivers" tab.
可能的原因:
因为最近ubuntu又更新了一次版本内核,系统可能自己更新了(或者我误操作更新了),nvidia的显卡驱动版本不匹配了,需要更新一下显卡驱动
解决方法:
从nvidia官网下载最新的驱动:官网
我是在这里选择对应的版本进行下载,之前在其他地方下载的仍然报错,当时下载的版本545.xxxx
,在官网中下载的版本是550.40.xxxx。(显卡是3090)下载好了就可以安装了
问题:驱动安装失败
已经是最新版本的驱动了,但安装仍然出现上面的错误,不同的是这次log文件中记录了对应的warning。
原log已经更新了,无法直接展示当时的问题。当时报错提示gcc版本不同,kernel编译的环境是12,我系统里的是8还是9。于是我切换了系统的gcc版本为12,这样就可以成功安装了
make[1]: Entering directory '/usr/src/linux-headers-6.5.0-15-generic'
warning: the compiler differs from the one used to build the kernel
The kernel was built by: x86_64-linux-gnu-gcc-12 (Ubuntu 12.3.0-1ubuntu1~22.04) 12.3.0
You are using: cc (Ubuntu 12.3.0-1ubuntu1~22.04) 12.3.0
至此显卡驱动安装成功
但是仍有两个问题:
1.运行nvidia-smi速度慢
这次修好后运行nvidia-smi要数秒,无论是在主机还是docker里
2.无程序运行仍然100w的功耗
如上图所示,没有程序运行但功耗很高
因为已经可以运行项目了,所以暂时没有研究出现这个问题的解决的办法