并行超算云计算使用步骤完整流程详情


  

一、将项目传入并运云。

在这里插入图片描述
在这里插入图片描述

二、创建项目的虚拟环境

  1. 打开终端
    在这里插入图片描述
  2. 使用conda创建:conda create -n 环境名 python=3.8
  3. 查看conda下所有的环境:conda env list
  4. 激活环境:conda activate 环境名
  5. 安装项目所需模块:pip install 模块名 -i https://pypi.tuna.tsinghua.edu.cn/simple,如果项目有requirements.txt文件,则需要先cd到包含该文件的目录下,使用pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple来安装所有模块。
  6. 查看当前环境下所有的模块:module ava

三、编辑run.sh脚本

此处的脚本用于后续的提交作业。

#!/bin/bash     
export PYTHONUNBUFFERED=1

conda activate yolov5
cd /data/home/scv9187/yolov1
python train.py

主要修改以下内容:

  1. conda activate yolov5:激活刚才创建好的环境,这里yolov5是环境名,要根据自己所创建的环境修改。
  2. cd /data/home/scv9187/yolov1:切换含有train.py文件的目录下。
  3. python train.py:运行train.py文件。

四、提交作业

  我们需要先cd到含有run.sh脚本文件的目录下,然后使用下面命令提交脚本文件。run.sh在哪个目录下,最后生成的.out文件就在哪个目录下。
  使用命令:sbatch --gpus=GPU卡数 run.sh,这里GPU卡数不要超过8。使用的卡数不同需要等待资源分配的时间也不同。

  使用示例:sbatch --gpus=8 run.sh

在这里插入图片描述
  提交后会立刻获得一个作业号,但是这个作业号并不是.out文件,只是为了方便后续我们区别不同的作业而已。即使是提交同一份代码,每次运行该命令得到的作业号也不一样。

坑1:提交作业后未生成.out文件

  在提交完成后,等待片刻,终端会生成一个作业号.out文件。但是这并不是立刻生成的,当我们提交了作业后,云计算端会按照作业的排队顺序去分配计算资源,当作业被分配了资源后,才会生成.out文件。这时需要等待分配资源即可。

坑2:如果长时间没有生成.out文件

  可能是该GPU卡数排队作业量较多,使用不同的卡数试一下。

五、查看作业输出

使用命令:tail -f slurm-作业号.out
使用示例:tail -f slurm-1052867.out

特别注意:只有终端生成了.out文件后,我们才可以使用上面的命令就可以查看作业的输出内容。
在这里插入图片描述

六、查看提交的作业号

使用命令:squeue
在这里插入图片描述
作业运行状态:
R:正在运行
PD:正在排队
CG:即将完成
CD:已完成

七、结束作业

使用命令:scancel 作业号
在这里插入图片描述

  • 8
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要在并行超算云服务上创建环境,您可以按照以下步骤进行操作: 1. 首先,确保您已经配置好了虚拟环境。如果没有配置,您可以使用以下命令创建一个新的虚拟环境:conda create --name your_env_name python=3.7 。请将"your_env_name"替换为您想要创建的虚拟环境的名称。 2. 使用命令conda env list来检查您是否成功创建了虚拟环境。您应该能够在返回的列表中看到您所创建的虚拟环境。 3. 接下来,您需要使用第三方软件Xshell连接到超算云服务。根据官方手册所述,如果在超算云应用中找不到Xshell,您可以下载云桌面。在下载的云桌面中,您应该能够找到Xshell工具 。 4. 如果这是您第一次使用并行超算云服务,您可能需要安装一些必要的环境。在超算云服务中,已经预先部署了一些环境,例如Anaconda、CUDA、gcc等 。 综上所述,您可以按照以上步骤并行超算云服务上创建环境,并使用Xshell工具进行连接。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [并行超算云环境配置](https://blog.csdn.net/m0_56698268/article/details/124767122)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值