高性能平台（HPC）安装一个完整的GPU加速项目环境

红线缠心系

已于 2024-02-29 09:15:55 修改

阅读量413

点赞数 4

文章标签： conda 深度学习服务器

于 2024-02-28 23:06:27 首次发布

本文链接：https://blog.csdn.net/qq_39511822/article/details/136343234

版权

背景：使用高性能平台运行深度学习项目，高性能平台为slurm作业调度，linux平台

由于之前已经安装过一次了，但是由于系统的GLIBC版本过低，只能重新安装。

一、查看并加载CUDA（这里没做或者做错也没关系，随时可以重新更改）

1. 查看学校可以使用的CUDA版本，根据自己的需要选择（可以参考自己使用的平台对应的使用手册）

module avail

这里发现可以使用的CUDA版本有这些

2.根据需求加载自己需要的CUDA，例如加载CUDA10.0

module load CUDA/10.0

3.检查目前的CUDA版本

nvcc -V

这里打印出了我们前面加载的CUDA 10.0

二、创建conda环境并且通过pip安装一些python包（pytorch和tensorflow在第三部分）

1.创建conda虚拟环境，由于前面安装的是3.7.5的python版本，但是系统的GLIBC版本过低，因此这里安装一个3.6版本的python，别忘了修改自己envname

conda create -n envname python=3.6

2. 激活conda环境

conda activate envname

3.新建环境的时候anaconda会自动加载一些基础包，这里使用代码查看已经有的基础包，已经有的就不需要安装了

conda list

4.使用pip安装所需的包，这里使用国内镜像进行加速，例如

pip install numpy==1.17.3 -i https://pypi.tuna.tsinghua.edu.cn/simple

三、安装GPU加速的pytorch和tensorflow

1.安装pytorch，这里使用国内镜像安装，报错，因此使用以下代码安装（可能需要KXSW）

pip install torch==1.3.1+cu100 torchvision==0.4.2+cu100 -f https://download.pytorch.org/whl/torch_stable.html

2.安装tensorflow，这里可以使用国内镜像加速

pip install tensorflow-gpu==1.14.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

四、查看pytorch和tensorflow是否可以使用GPU加速

1.申请一个独占GPU(这里使用的是共享账户，此处应该根据自己的实际情况进行coding)

srun -n 1 -A 账户名 -p gpu2Q -q gpuq --gres=gpu:1 --pty bash

2.重新激活conda虚拟环境，因为申请了GPU之后会重新回到base环境

conda activate envname

3.在服务器上上传以下py文件

import torch
flag = torch.cuda.is_available()
print(flag)

import tensorflow as tf

print('GPU',tf.test.is_gpu_available())

4.进入该py文件的目录

cd py文件目录

5. 运行该py文件

python py文件

6.这里pytorch是可以成功返回True的，但是不知道为什么tensorflow找不到一个文件，经过一直查找发现可以通过在conda虚拟环境中安装cudnn解决。

conda install -c anaconda cudnn

7.可以发现pytorch和tensorflow都成功启动GPU了！！！

大功告成！！！完结撒花！！！

关注