北京超级云计算中心运行训练配置Note

参考教程
https://blog.gitnote.cn/post/bscc_yolov5/index.html
https://blog.csdn.net/qiaoyurensheng/article/details/125944868

#建议下载win客户端操作,网页端快传不知为何总之不显示可以上传的列表
#(建议先上传挂着,要一些时间传输)

#环境准备--------------------
#加载 anaconda 环境
module load anaconda/2020.11

#创建一个名为 torch191 的 python3.7 的虚拟环境
conda create -n torch191 Python=3.7

#加载 cuda/11.1 环境
module load cuda/11.1

#激活 python 虚拟环境
source activate torch191

#安装 torch 1.8.0 环境,可依据需要自行安装其他 torch 版本环境
conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=10.2 -c pytorch
#https://blog.csdn.net/caiguanhong/article/details/112184290
#https://blog.csdn.net/mukchan/article/details/120809803

#然后使用快传工具将本地训练文件以及训练数据上传到超算节点的 run 文件夹下
#上传后解压(如需)

#然后进入训练网络代码的文件夹下
#安装 需要的运行环境
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

#生成requirements.txt可以参考如下:
#https://www.zhihu.com/question/463332914
#使用pycharm生成可能要注意连接时“==”,如pytorch==1.8.0,按需请检查该点

创建sh训练网络

如run.sh,文件内容如下

#!/bin/sh
# 加载 anaconda
module load anaconda/2020.11
# 加载 cuda 11.1
module load cuda/11.1
# 激活 python 虚拟环境
source activate torch191
export PYTHONUNBUFFERED=1
# python 训练的的命令(此处需要自己依据自己训练的需要进行修改)
python demo_train.py --model=...


#如在window记事本创建大概会报错,使用该命令转一下
#https://blog.csdn.net/weixin_45092662/article/details/121299887
dos2unix run.sh

#进入 run.sh 所在目录中,执行sbatch --gpus=GPU数量 程序运行脚本,提交需要训练的数据到超算的计算节点。
sbatch --gpus=1 run.sh

#查看提交结果
parajobs

#存储的权重文件与本地运行时的相对路径一致
#日志为run.sh同目录下后缀为.out的文件

#取消作业(作业ID为parajobs结果可查)
scancel 作业ID

#parajobs输出结果为:

#
第一列 JOBID 是作业号,作业号是唯一的。
第二列 PARTITION 是作业运行使用的队列名。
第三列 NAME 是作业名。
第四列 USER 是超算账号名。
第五列 ST 是作业状态,R(RUNNING)表示正常运行,PD(PENDING)表示在排队,CG(COMPLETING)表示正在退出,S 是管理员暂时挂起,CD(COMPLETED)已完成,F(FAILED)作业已失败。只有 R 状态会计费。
第六列 TIME 是作业运行时间。
第七列 NODES 是作业使用的节点数。
第八列 NODELIST(REASON)对于运行作业(R 状态)显示作业使用的节点列表;对于排队作业(PD 状态),显示排队的原因。
#
  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值