因为工作需要,租借了腾讯云服务器。购买的配置是centos 8.2系统,512G的存储空间,另外显卡是Tesla T4,20核CPU,80G内存,在此基础上搭建深度学习的运行环境,将要安装pytorch和tensorflow开发框架。
1.安装显卡驱动
查看显卡的类型
lspci | grep -i nvidia
可以发现,
显卡类型为Tesla T4。
通过显卡找到驱动版本,打开官网。
下载时候需要记住自己的cuda toolkit版本,后续安装cuda时候需要版本一致。
等下载完成后,上传到服务器上,就可以进行后续的安装操作。
%让.run 文件有可执行权限:
chmod u+x NVIDIA-Linux-x86_64-460.73.01.run
%执行安装脚本
sudo ./NVIDIA-Linux-x86_64-460.73.01.run
通过下述命令就可以检查是否安装成功。
看到以上显卡的具体信息,就表示目前为止驱动安装成功!
2.安装cuda
去官网下载,安装cuda。
有命令提示下载安装,如果第一步操作在服务上不能解析地址下载,可以选择下载到本地然后再进行第二步的安装。
安装过程中,一路选择yes就ok。
接下来需要配置环境变量,如下。
%打开profile文件进行编辑
sudo vim /etc/profile
%在文件的最后添加如下两行语句
export PATH=/usr/local/cuda-11.0/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
%保存退出
:wq!
source /etc/profile
%重启
sudo reboot
接下来验证cuda是否安装成功。
到此为止,表明cuda安装成功。
3.安装cudnn
第一步下载cuda对应的cudnn。官网
本地下载完成以后,上传到服务器,接下来开始安装。
%先解压文件 :
tar -xvf cudnn-11.2-linux-x64-v8.1.0.77.tgz
%复制到CUDA指定目录下
sudo cp cuda/include/cudnn*.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
%修改权限
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
验证是否安装成功。
%注意cudnn8.0以上版本cudnn.h一定要写为cudnn_version.h
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
当出现如下的界面,说明cudnn安装成功。
至此,GPU的驱动安装完毕,接下来就是配置运行编译环境。
4.安装Anaconda
直接去官网下载最新版的anaconda。注意需要选择与系统对应的版本下载。
下载完成以后,上传到服务器上,然后通过下列命令进行安装。
bash Anaconda3-2021.05-Linux-x86_64.sh
在安装过程中一路yes就OK。
可以默认不选择init,然后通过以下的命令修改。
echo 'export PATH="/root/anaconda3/bin:$PATH"' >> ~/.bashrc
最后输入命令,使环境变量生效。
source ~/.bashrc
查看conda是否安装成功。
如果显示conda命令不存在,应该是安装过程中没有选择初始化。
You have chosen to not have conda modify your shell scripts at all.
To activate conda's base environment in your current shell session:
eval "$(/home/xxx/anaconda3/bin/conda shell.YOUR_SHELL_NAME hook)"
To install conda's shell functions for easier access, first activate, then:
conda init
If you'd prefer that conda's base environment not be activated on startup,
set the auto_activate_base parameter to false:
conda config --set auto_activate_base false
需要通过以下命令进行手工初始化。
eval "$(/root/anaconda3/bin/conda shell.bash hook)"
这样会进入base的conda环境中,通过以下命令可以推出conda虚拟环境。
conda deactivate
到目前为止,anaconda就安装完成。
接下来就可以通过conda命令创建属于自己的编译环境,在里面可以搭建不同的深度学习框架,比如安装pytorch或者tensorflow。
TensorFlow-gpu 安装完成后测试。
import tensorflow as tf
tf.test.is_gpu_available()
如果返回True,说明GPU版本的TensorFlow没问题。
Pytorch安装完成后测试。
import torch
flag = torch.cuda.is_available()
print(flag)
如果返回的是1,说明GPU版本的torch没问题。