背景:使用高性能平台运行深度学习项目,高性能平台为slurm作业调度,linux平台
由于之前已经安装过一次了,但是由于系统的GLIBC版本过低,只能重新安装。
一、查看并加载CUDA(这里没做或者做错也没关系,随时可以重新更改)
1. 查看学校可以使用的CUDA版本,根据自己的需要选择(可以参考自己使用的平台对应的使用手册)
module avail
这里发现可以使用的CUDA版本有这些
2.根据需求加载自己需要的CUDA,例如加载CUDA10.0
module load CUDA/10.0
3.检查目前的CUDA版本
nvcc -V
这里打印出了我们前面加载的CUDA 10.0
二、创建conda环境并且通过pip安装一些python包(pytorch和tensorflow在第三部分)
1.创建conda虚拟环境,由于前面安装的是3.7.5的python版本,但是系统的GLIBC版本过低,因此这里安装一个3.6版本的python,别忘了修改自己envname
conda create -n envname python=3.6
2. 激活conda环境
conda activate envname
3.新建环境的时候anaconda会自动加载一些基础包,这里使用代码查看已经有的基础包,已经有的就不需要安装了
conda list
4.使用pip安装所需的包,这里使用国内镜像进行加速,例如
pip install numpy==1.17.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
三、安装GPU加速的pytorch和tensorflow
1.安装pytorch,这里使用国内镜像安装,报错,因此使用以下代码安装(可能需要KXSW)
pip install torch==1.3.1+cu100 torchvision==0.4.2+cu100 -f https://download.pytorch.org/whl/torch_stable.html
2.安装tensorflow,这里可以使用国内镜像加速
pip install tensorflow-gpu==1.14.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
四、查看pytorch和tensorflow是否可以使用GPU加速
1.申请一个独占GPU(这里使用的是共享账户,此处应该根据自己的实际情况进行coding)
srun -n 1 -A 账户名 -p gpu2Q -q gpuq --gres=gpu:1 --pty bash
2.重新激活conda虚拟环境,因为申请了GPU之后会重新回到base环境
conda activate envname
3.在服务器上上传以下py文件
import torch
flag = torch.cuda.is_available()
print(flag)
import tensorflow as tf
print('GPU',tf.test.is_gpu_available())
4.进入该py文件的目录
cd py文件目录
5. 运行该py文件
python py文件
6.这里pytorch是可以成功返回True的,但是不知道为什么tensorflow找不到一个文件,经过一直查找发现可以通过在conda虚拟环境中安装cudnn解决。
conda install -c anaconda cudnn
7.可以发现pytorch和tensorflow都成功启动GPU了!!!
大功告成!!!完结撒花!!!