高性能平台(HPC)安装一个完整的GPU加速项目环境

背景:使用高性能平台运行深度学习项目,高性能平台为slurm作业调度,linux平台

由于之前已经安装过一次了,但是由于系统的GLIBC版本过低,只能重新安装。

一、查看并加载CUDA(这里没做或者做错也没关系,随时可以重新更改)

1. 查看学校可以使用的CUDA版本,根据自己的需要选择(可以参考自己使用的平台对应的使用手册)

module avail

这里发现可以使用的CUDA版本有这些 

2.根据需求加载自己需要的CUDA,例如加载CUDA10.0

module load CUDA/10.0

3.检查目前的CUDA版本

nvcc -V

这里打印出了我们前面加载的CUDA 10.0

二、创建conda环境并且通过pip安装一些python包(pytorch和tensorflow在第三部分)

1.创建conda虚拟环境,由于前面安装的是3.7.5的python版本,但是系统的GLIBC版本过低,因此这里安装一个3.6版本的python,别忘了修改自己envname

conda create -n envname python=3.6

2. 激活conda环境

conda activate envname

 3.新建环境的时候anaconda会自动加载一些基础包,这里使用代码查看已经有的基础包,已经有的就不需要安装了

conda list

 4.使用pip安装所需的包,这里使用国内镜像进行加速,例如

pip install numpy==1.17.3 -i https://pypi.tuna.tsinghua.edu.cn/simple

 三、安装GPU加速的pytorch和tensorflow

1.安装pytorch,这里使用国内镜像安装,报错,因此使用以下代码安装(可能需要KXSW)

pip install torch==1.3.1+cu100 torchvision==0.4.2+cu100 -f https://download.pytorch.org/whl/torch_stable.html

2.安装tensorflow,这里可以使用国内镜像加速

pip install tensorflow-gpu==1.14.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

四、查看pytorch和tensorflow是否可以使用GPU加速

1.申请一个独占GPU(这里使用的是共享账户,此处应该根据自己的实际情况进行coding)

srun -n 1 -A 账户名 -p gpu2Q -q gpuq --gres=gpu:1 --pty bash

2.重新激活conda虚拟环境,因为申请了GPU之后会重新回到base环境

conda activate envname

3.在服务器上上传以下py文件

import torch
flag = torch.cuda.is_available()
print(flag)

import tensorflow as tf

print('GPU',tf.test.is_gpu_available())

4.进入该py文件的目录

cd py文件目录

5. 运行该py文件

python py文件

 6.这里pytorch是可以成功返回True的,但是不知道为什么tensorflow找不到一个文件,经过一直查找发现可以通过在conda虚拟环境中安装cudnn解决。

conda install -c anaconda cudnn

7.可以发现pytorch和tensorflow都成功启动GPU了!!!

大功告成!!!完结撒花!!!

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值