0. 显卡驱动的下载及版本选择
1)https://www.nvidia.com/Download/index.aspx,显卡驱动
2)cuda--cudnn--pytorch--nvidiadriver的版本要适配
GPU与CUDA适配查询:https://developer.nvidia.com/cuda-gpus#compute
Cuda 包下载https://developer.nvidia.com/cuda-toolkit-archive
Cudnn 下载https://developer.nvidia.com/rdp/cudnn-download
注意cudnn和cuda 版本要适配https://developer.nvidia.com/rdp/cudnn-download(cudnn其实是一个加速库)
1. X-server正在运行,退出的方式:
1)ctrl+alt+f2进入控制台(ctrl+alt+f7切出)
2)sudo init 3(切入文本环境,同样使用sudo init 5切回来)或者使用sudo service lightdm stop也可以关闭图形界面
3)sudo ./NVIDIA-Linux-x86_64-430.34.run
2. 遇到“ERROR: The Nouveau kernel driver is currently in use by your system. This
driver is incompatible with the NVIDIA driver“,该问题是非官方的显卡驱动Nouveau与NVDIA-Driver有冲突,可以在NVDIA驱动安装的官方网址上找到解决办法:https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#pre-installation-actions
sudo gedit /etc/modprobe.d/blacklist-nouveau.conf
添加:
blacklist nouveau
options nouveau modeset=0
然后更新 initramfs:
sudo update-initramfs -u
然后按着第一步的安装即可。
3. 卸载原来的NVIDIA驱动
sudo apt-get autoremove --purge nvidia*
4. 安装完之后发现一直在重复登录
重复启动
(1) Ctrl+Alt+F1
(2) sudo service lightdm stop
(3) sudo ./NVIDIA-Linux-x86_64-381.22.run -no-x-check -no-nouveau-check -no-opengl-files
上面第(3)步操作中的run文件为自己下载的实际的驱动文件名。
选项说明:
-no-x-check 安装驱动时关闭x服务
-no-nouveau-check 安装驱动时禁用nouveau
-no-opengl-files 安装驱动时只装驱动文件,不安装opengl
5. pytorh涉及到的一些库升级操作
Step 1. 升级cuda
卸载原先的cuda
sudo /usr/local/cuda-8.0/bin/uninstall_cuda_8.0.pl
sudo rm -rf /usr/local/cuda-8.0
Cuda升级
下载cuda安装包和对应的cudnn安装包,cudnn是即插即用,只需要把include和lib64复制粘贴到/usr/local/cuda下面就可以了
下载对应版本的tensorRt
升级pytorch版本--从0.4.1升级到:
Pip uninstall torch torchvision
Pip install torch==1.5.0 torchvision==0.6.0
6. Cuda安装如果遇到内存不够的情况,可以在安装命令时加tmpdir
sudo ./cuda_9.1.85_387.26_linux.run --tmpdir=/home/×××/cuda-tmpdir
7.添加显卡驱动的源
sudo add-apt-repository ppa:graphics-drivers/ppa #填加显卡安装源
sudo apt-get update
sudo apt-get install nvidia-driver-430