深度学习环境配置:Ubuntu 20.04;Nvidia RTX 4090显卡(驱动550.78);CUDA12.6.0
一、安装显卡驱动
把4090组装到服务器上之后,先别急着装驱动!!!看看你的4090供上电没有!!!血泪教训!!!
lspci
- 下载官网驱动:
我下了550.78版本:
https://www.nvidia.cn/geforce/drivers/results/224357/
- 删除旧的驱动:
sudo apt-get purge remove nvidia*
- 打开文件blacklist.conf
sudo vim /etc/modprobe.d/blacklist.conf
//在末尾添加:
blacklist nouveau
//再更新
sudo update-initramfs -u
//重启系统
sudo reboot
- 确认下Nouveau是关闭
lsmod | grep nouveau //没有输出就是关掉了。
- 在关闭X-Window的状态下安装(若有图形化界面)
sudo service lightdm stop
- 切换到存放下载好的驱动包的目录
//几个后缀务必带上,也许有时不带也可以,但也有可能出现装完循环登录。
sudo sh NVIDIA-Linux-x86_64-550.78.run -no-x-check -no-nouveau-check -no-opengl-files -k $(uname -r) --add-this-kernel
eg:sudo sh NVIDIA-Linux-x86_64-550.78.run -no-x-check -no-nouveau-check -no-opengl-files -k 5.15.0-117-generic --add-this-kernel
-no-x-check:安装驱动时关闭X服务
-no-nouveau-check:安装驱动时禁用nouveau
-no-opengl-files:只安装驱动文件,不安装OpenGL文件
-k:对应内核版本
如果不带–add-this-kernel可能会报错:WARNING: You do not appear to have an NVIDIA GPU supported by the XXX NVIDIA Linux
解决报错参考链接
ERROR: An error occurred while performing the step: “Building kernel modules”. See /var/log/nvidia-installer.log for details.
原因:内核版本过高
解决报错参考连接
二、安装CUDA12.6.0
- 去CUDA官网下载最新版本:https://developer.nvidia.com/cuda-toolkit-archive
- 按照安装提示进行安装:
sudo sh cuda_12.6.0_510.39.01_linux.run
输入accept:
选择install
安装成功!!
cuda安装的大部分参考:https://blog.csdn.net/chen20170325/article/details/130294270,特别感谢。