曙光超算平台操作之深度学习

SMORE_Bob

已于 2023-07-09 14:55:16 修改

阅读量1.3w

点赞数 31

文章标签：深度学习 pytorch 人工智能

于 2022-09-19 21:48:00 首次发布

本文链接：https://blog.csdn.net/baobao135/article/details/126924428

版权

本文提供了一份详细的国产DCU及英伟达GPU的操作手册，包括环境安装与测试、作业提交流程、作业状态查看及取消等操作步骤。此外，还对比了两者在计算任务上的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、 DCU操作：

1. 安装环境并测试

1.1安装pytorch

需要安装他们提供的pytorch,支持他们的DCU的：

激活自己的环境:source acctivate 环境名

安装torch:

pip install /public/software/apps/DeepLearning/whl/dtk-22.04.2/torch-1.10.0a0_gitc7f69d6_dtk22.04.2-cp37-cp37m-manylinux2014_x86_64.whl

安装torchvision:

pip install /public/software/apps/DeepLearning/whl/dtk-22.04.2/torchvision-0.10.0a0_dtk22.04.2_e17f5ea-cp37-cp37m-manylinux2014_x86_64.whl

1.2查看是否能够调用到DCU

查看队列:whichpartition
申请节点：salloc -p 队列名 -N 1 --gres=dcu:2
根据申请到的节点登录节点：ssh 节点
切换rocm编译器版本（加载dtk22.04驱动）：module switch compiler/dtk/22.04.1

添加环境变量

编辑存放环境变量的文本：vi ~/pytorch_env.sh

添加如下内容：

export
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH

保存 ESC + :+ w+ q
激活环境变量：source ~/pytorch_env.sh

激活环境：source acctivate 环境名

执行如下语句验证：

 python

import torch
torch.cuda.is_available()
torch.__version__

登出节点 exit

2. 作业操作

第一步的一系列的操作是在验证你的云服务器是否好用，接下来就不用在像上面一样操作，直接使用提交作业的模板，所有的指令放在模板中，直接一行指令，运行模板，就能够做所有的事情。

2.1 提交作业

首先，自己建立.sh作业提交脚本
作业脚本模板：
- 作业脚本中要加载驱动，但是并没有配置环境变量
- 编辑文件：vi 文件名 (例如 vi fastrcnn.sh) 或者直接打开该文件
- 通过sbatch 作业名.sh 提交(例如 sbatch fastrcnn.sh)

2.2查看作业

终端输入：squeue

2.3作业删除

终端输入：scancel 作业号 (作业号就是执行squeue，jobid下面的数字号码)

2.4实时查看输出

终端输入：tail -f 输出文件名（输出文件在和脚本文件在同一个目录下，终端输入字母ls或者ll就可以看见）

3. 测试总结

曲线拟合的效果有点不太好。同样的配置下（单卡 8核心），每次计算时间和结果都很不稳定，有很大的差别。这个看情况用吧。

二、 GPU操作手册

1. 安装环境并测试

1.1安装pytorch

需要安装他们提供的pytorch,支持他们的GPU的：

激活自己的环境:source activate 环境名
安装torch: 直接像工程师询问应该装什么版本的pytorch,然后到pytorch【官网】找到对应的版本。按照官网给的指令即可。

1.2查看是否能够调用到GPU

查看队列:whichpartition
申请节点：salloc -p 队列名 -N 1 --gres=gpu:1
根据申请到的节点登录节点：ssh 节点
激活cuda ：module load apps/cuda/10.2
激活环境：source activate 环境名

执行如下语句验证：

 python

import torch
torch.cuda.is_available()
torch.__version__

登出节点 exit

2. 作业操作

2.1 提交作业

首先，自己建立.sh作业提交脚本
作业脚本模板：
- 作业脚本中要加载驱动，但是并没有配置环境变量
- 编辑文件：vi 文件名 (例如 vi fastrcnn.sh) 或者直接打开该文件
- 通过sbatch 作业名.sh 提交(例如 sbatch fastrcnn.sh)

2.2查看作业

终端输入：squeue

2.3作业删除

终端输入：scancel 作业号 (作业号就是执行squeue，jobid下面的数字号码)

2.4实时查看输出

终端输入：tail -f 输出文件名（输出文件在和脚本文件在同一个目录下，终端输入字母ls或者ll就可以看见）

3. 测试总结

曲线拟合的很好，时间很快。能用这个还是用这个啊。

曙光超算平台操作之深度学习

国产DCU和英伟达GPU操作手册

一、 DCU操作：

1. 安装环境并测试

1.1安装pytorch

1.2查看是否能够调用到DCU

2. 作业操作

2.1 提交作业

2.2查看作业

2.3作业删除

2.4实时查看输出

3. 测试总结

二、 GPU操作手册

1. 安装环境并测试

1.1安装pytorch

1.2查看是否能够调用到GPU

2. 作业操作

2.1 提交作业

2.2查看作业

2.3作业删除

2.4实时查看输出

3. 测试总结