1.安装显卡驱动
去官网下载相应的驱动,安装
或者最简单的方式
在software&updates下选择相应的驱动安装
查看gpu信息
nvidia-smi
或
cat /proc/driver/nvidia/version
2.安装cuda
下载以前版本的cuda网址:https://developer.nvidia.com/cuda-toolkit-archive
版本对照表:
更多版本见:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html#id5
从文件名也可以看出,比如cuda_11.0.2_450.51.05_linux
表示cuda版本为11.0.2,最低驱动版本为450.51.05,适用linux。
wget http://developer.download.nvidia.com/compute/cuda/11.0.2/local_installers/cuda_11.0.2_450.51.05_linux.run
可能存在的问题
如图,下载完成了突然报错 s段错误 (核心已转储)
,原因:stack size 太小
使用ulimit -a
命令查看内容,使用ulimit -s 102400
将stack size 改为100m,问题解决
在终端cd到指定文件夹,再执行以上命令可以将安装包保存到该文件夹下,再输入
sudo sh cuda_11.0.2_450.51.05_linux.run
(注意核对cuda版本号)
下载过程比较慢,还经常断线,断了还要从头下载
(有人说复制网址用迅雷下载速度会快些,我并没有成功)
安装过程中注意不安装驱动
查看cuda版本
方法1
cat /usr/local/cuda/version.txt
方法2
有时用
nvcc -v
也可。
但是有时会显示
如果按照指示安装的话,可以成功安装并可通过nvcc -v查到信息,但是安装的版本会比想要的版本号低,以后说不定会出什么问题,所以又执行以下语句卸载
sudo apt-get autoremove nvidia-cuda-toolkit
3.安装cudnn
cudnn下载网站:https://developer.nvidia.com/rdp/cudnn-archive
直接下载很多次因为网络连接问题没有成功
最后用conda+清华源安装
conda install cudnn=7.6.5 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
(注意核对cudnn版本号)
有时候有奇奇怪怪的报错,或网速太慢,下载容易中断。可以直接访问清华源网址,将包下载到本地,然后执行如下命令安装
conda install (--use-local) cudnn-7.6.5-cuda10.2_0.tar.bz2
亲测同样有效
查看cudnn版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
如下所示,版本号为7.1.2
#define CUDNN_MAJOR 7
#define CUDNN_MINOR 1
#define CUDNN_PATCHLEVEL 2
--
#define CUDNN_VERSION (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)
#include "driver_types.h"
(在conda环境中用conda list
查看到的版本号可能和以上不同,可看做以上是公共的,conda中是私有的)
4.安装pytorch
(conda环境安装pytorch可以不用安装cuda和cudnn,装pytorch时会一并处理好,非常人性化,一条命令全搞定)
网址:https://pytorch.org/get-started/locally/
ubuntu20.04安装会报错,提示找不到相应版本
把版本号后面的+cu110
通通去掉,成功
(有人说pip改成pip3也可成功)
pytorch安装实例:
pip install torch==1.7.1 torchvision==0.8.2 torchaudio===0.7.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
相应的版本去pytorch官网找,官网给的网址通通换成清华源
以前版本网址
https://pytorch.org/get-started/previous-versions/
1.1.0版本(cuda9.0,cudnn7)成功安装实例
pip install torch==1.1.0 torchvision==0.3.0 -f https://download.pytorch.org/whl/torch_stable.html
5.tensorflow安装
tensorflow版本对照的linux网址:https://tensorflow.google.cn/install/source
(windows)https://tensorflow.google.cn/install/source_windows
python3.6+cuda9支持的tensorflow版本在1.5.0-1.12.0这几个
cpu版本
pip install –upgrade tensorflow-1.12.0-cp36-cp36m-linux_x86_64.whl –user
GPU版本
pip install tensorflow-gpu==1.7.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
6.虚拟环境下安装cuda、cudnn、tensorflow
不同的项目可能用到不同版本的tensorflow,不同版本的tensorflow又需要不同版本的cuda和cudnn,所以考虑在虚拟环境中安装这些。以下步骤有些在前面已经详细说明,下面就总结一下。
创建虚拟环境
conda create -n XXX(环境名) python=3.6 anaconda
进入环境:
source activate XXX
or
conda activate XXX
退出环境
source deactivate
or
conda deactivate
对虚拟环境中安装额外的包:
conda install -n XXX [package]
或者进入环境中再用以下命令安装(我比较喜欢这种):
conda install [package]
or
pip install [package]
安装cuda
conda install cudatoolkit=9.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/linux-64/
cudatoolkit=版本号
安装cudnn
conda install cudnn=7.0.5 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
安装tensorflow
pip install tensorflow-gpu==1.7.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
查询当前环境下的库的版本号:
conda list cudnn
conda list cuda
conda list tensorflow
注
如果上述conda的清华源URL失效,可尝试换成
https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/