并行超算云计算使用步骤完整流程详情

小仇学长

已于 2025-02-12 13:45:56 修改

阅读量4.9k

点赞数 15

文章标签：深度学习并行云超算提交作业

于 2024-04-09 10:03:48 首次发布

本文链接：https://blog.csdn.net/qq_48361010/article/details/137525965

版权

一、将项目传入并运云。

在这里插入图片描述

打开终端
使用conda创建：conda create -n 环境名 python=3.8
查看conda下所有的环境：conda env list
激活环境：conda activate 环境名
安装项目所需模块：pip install 模块名 -i https://pypi.tuna.tsinghua.edu.cn/simple，如果项目有requirements.txt文件，则需要先cd到包含该文件的目录下，使用pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple来安装所有模块。
查看当前环境下所有的模块：module ava

此处的脚本用于后续的提交作业。

#!/bin/bash     
export PYTHONUNBUFFERED=1

conda activate yolov5
cd /data/home/scv9187/yolov1
python train.py

主要修改以下内容：

我们需要先cd到含有run.sh脚本文件的目录下，然后使用下面命令提交脚本文件。run.sh在哪个目录下，最后生成的.out文件就在哪个目录下。
使用命令：sbatch --gpus=GPU卡数 run.sh，这里GPU卡数不要超过8。使用的卡数不同需要等待资源分配的时间也不同。

使用示例：sbatch --gpus=8 run.sh

在这里插入图片描述
提交后会立刻获得一个作业号，但是这个作业号并不是.out文件，只是为了方便后续我们区别不同的作业而已。即使是提交同一份代码，每次运行该命令得到的作业号也不一样。

在提交完成后，等待片刻，终端会生成一个作业号.out文件。但是这并不是立刻生成的，当我们提交了作业后，云计算端会按照作业的排队顺序去分配计算资源，当作业被分配了资源后，才会生成.out文件。这时需要等待分配资源即可。

可能是该GPU卡数排队作业量较多，使用不同的卡数试一下。

使用命令：tail -f slurm-作业号.out
使用示例：tail -f slurm-1052867.out

特别注意：只有终端生成了.out文件后，我们才可以使用上面的命令就可以查看作业的输出内容。
在这里插入图片描述

使用命令：squeue
在这里插入图片描述
作业运行状态：
R：正在运行
PD：正在排队
CG：即将完成
CD：已完成

使用命令：scancel 作业号
在这里插入图片描述