北京超级云计算中心操作训练指南

北京超级云计算中心操作指南

本人在实验室做深度学习图像领域相关研究,前期使用实验室的设备 2080Ti ,运行时间较慢;跑一轮需要6个小时以上;后来开始使用超算,运行速度比实验室快多了,但超算使用前需要相关配置,使用难度相较于本地会难一点,本文以北京超级云计算中心和 yolov5 训练为例,详细介绍超算的环境安装与计算过程。

一、获取账号

使用超算首先需要的当然是需要有超算的使用权限以及超算的账号了。本文主要以北京超级云计算中心为例。

  1. 首先在百度、知乎等平台搜索北京超级云计算中心试用,找到申请的表单,提交申请即可。学校教师或学生使用教育网邮箱概率更大哦。
  2. 申请试用后大约 1~2 天,北超云会依据你留的手机号给你打电话,电话里会沟通一些超算中心试用节点等信息。
  3. 电话沟通后大于 1~2 天内会收到超算账号开通的邮件,届此获取账号环节结束。

在这里插入图片描述

二、安装环境

根据邮件中的网址 https://cloud.blsc.cn/ 与账号密码登陆超算平台网页版,或下载客户端登陆。登陆后界面如下图所示。

在这里插入图片描述

2.1 安装系统软件

在运行前需要安装一些必要软件。打开桌面应用中心,找到 ssh、WinScp 等选择并安装。
ssh 用于链接超算账号,执行超算命令。
WinScp 用于查看、上传、下载超算节点的文件。
其他软件按需求安装。

2.2 配置 yolov5 深度学习环境

在这里插入图片描述

使用 SSH 链接超算节点后,需要在节点内配置运行环境。

超算节点安装好了一些默认环境,使用 module avail 可查看节点可用的软件列表。

在这里插入图片描述

使用 module load anaconda/2020.11 加载 anaconda 环境。
使用 conda create -n torch110 Python=3.8 创建一个名为 torch110 的 python3.8 的虚拟环境。
使用 module load cuda/11.3 加载 cuda/11.3 环境。
使用 source activate torch110 激活 python 虚拟环境。
使用 conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge 安装 torch 1.10.0 环境,可依据需要自行安装其他 torch 版本环境。

然后使用 WinScp 工具将本地 yolov5 训练文件以及训练数据上传到超算节点的 run 文件夹下。

在这里插入图片描述

然后进入 yolov5 文件夹下,执行 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple some-package 安装 yolov5 需要的运行环境。

三、训练数据

3.1 创建 sub.sh 文件

在上传的 run/yolov5 文件夹下新建文件 sub.sh
sub.sh 中填入一下内容:

# sub.sh
# #!/bin/sh
# 加载 anaconda
module load anaconda/2020.11
# 加载 cuda 11.3
module load cuda/11.3
# 激活 python 虚拟环境
source activate torch110
export PYTHONUNBUFFERED=1
# yolov5 python 训练的的命令(此处需要自己依据自己训练的需要进行修改)
python train.py --img 640 --batch 16 --epoch 100 --data dataset/data/voc2007.yaml --cfg dataset/yolov5s_1.yaml --weights weights/yolov5s.pt
3.2 提交训练

使用 ssh 工具进入 sub.sh 根目录中,执行 sbatch --gpus=GPU数量 程序运行脚本 ,例如 sbatch --gpus=1 ./sub.sh 提交需要训练的数据到超算的计算节点。

3.3 查看提交结果
  1. 查看已提交作业

    parajobs
    

在这里插入图片描述

其中,
第一列 JOBID 是作业号,作业号是唯一的。
第二列 PARTITION 是作业运行使用的队列名。
第三列 NAME 是作业名。
第四列 USER 是超算账号名。
第五列 ST 是作业状态,R(RUNNING)表示正常运行,PD(PENDING)表示在排队,CG(COMPLETING)表示正在退出,S 是管理员暂时挂起,CD(COMPLETED)已完成,F(FAILED)作业已失败。只有 R 状态会计费。
第六列 TIME 是作业运行时间。
第七列 NODES 是作业使用的节点数。
第八列 NODELIST(REASON)对于运行作业(R 状态)显示作业使用的节点列表;对于排队作业(PD 状态),显示排队的原因。

  1. 取消作业
    执行 scancel 作业ID 取消作业

    scancel 20118812
    
  2. 进入计算节点中

使用 ssh 作业节点数ssh g0012 进入当前提交训练的计算节点中,使用 nvidia-smi 可查看当前计算节点的运行情况。
在这里插入图片描述

3.4 查看训练结果
  1. 训练的全部日志保留在 run/yolov5 根目录中名为 slurm-XXX.out 文件中。
  2. 训练完成的结果与本地训练一样,存放在 run/yolov5/runs/train 中。

在这里插入图片描述


本文首发于本人博客:https://blog.gitnote.cn/post/bscc_yolov5

版权信息: CC BY-NC-SA 4.0 (自由转载-非商用-相同方式共享-保持署名)

  • 22
    点赞
  • 86
    收藏
    觉得还不错? 一键收藏
  • 15
    评论
北京市智慧高速公路建设指南pdf》是一份关于北京市智慧高速公路建设的指南文件,用于指导和规范北京市智慧高速公路的建设和运营。这份指南是基于北京市智慧城市建设的战略布局和发展需求而编制的,旨在充分利用信息技术和智能化手段,提升高速公路的运行效率、安全性和服务水平。 指南提出了建设智慧高速公路的总体思路和目标,包括建设智能交通管理系统、智能收费系统、智能安全监控系统等。其中,智能交通管理系统通过数据采集、处理和分析,实现交通信息的实时监测和指挥调度,提高路况管理和交通组织能力。智能收费系统则利用无感支付和电子收费技术,提升高速公路收费效率和用户体验。智能安全监控系统则通过视频监控、智能识别和预警技术,加强对高速公路车辆和行人的安全管理和监控。 指南还对智慧高速公路的建设和运维提出了具体的要求和标准,包括基础设施建设、技术标准、数据共享和安全保障等方面。此外,指南还重点强调了公开透明、便民服务和环境友好的原则,通过智慧高速公路的建设和运营,提高公众对高速公路的认知和满意度。 总之,北京市智慧高速公路建设指南pdf是一份重要的指导文件,为北京市智慧高速公路的建设提供了详细而全面的指导。通过遵循指南的规范和要求,有助于提升北京市高速公路的智能化水平和服务质量,推动城市交通的现代化和可持续发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值