2024年最全北京超级云计算中心操作训练指南_北京超级云计算中心使用手册,Linux运维经典面试

最后的话

最近很多小伙伴找我要Linux学习资料,于是我翻箱倒柜,整理了一些优质资源,涵盖视频、电子书、PPT等共享给大家!

资料预览

给大家整理的视频资料:

给大家整理的电子书资料:

如果本文对你有帮助,欢迎点赞、收藏、转发给朋友,让我有持续创作的动力!

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以点击这里获取!

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

	- [三、训练数据](#_48)
	- * [3.1 创建 sub.sh 文件](#31__subsh__49)
		* [3.2 提交训练](#32__65)
		* [3.3 查看提交结果](#33__68)
		* [3.4 查看训练结果](#34__101)
一、获取账号

使用超算首先需要的当然是需要有超算的使用权限以及超算的账号了。本文主要以北京超级云计算中心为例。

  1. 首先在百度、知乎等平台搜索北京超级云计算中心试用,找到申请的表单,提交申请即可。学校教师或学生使用教育网邮箱概率更大哦。
  2. 申请试用后大约 1~2 天,北超云会依据你留的手机号给你打电话,电话里会沟通一些超算中心试用节点等信息。
  3. 电话沟通后大于 1~2 天内会收到超算账号开通的邮件,届此获取账号环节结束。

在这里插入图片描述

二、安装环境

根据邮件中的网址 https://cloud.blsc.cn/ 与账号密码登陆超算平台网页版,或下载客户端登陆。登陆后界面如下图所示。

在这里插入图片描述

2.1 安装系统软件

在运行前需要安装一些必要软件。打开桌面应用中心,找到 ssh、WinScp 等选择并安装。
ssh 用于链接超算账号,执行超算命令。
WinScp 用于查看、上传、下载超算节点的文件。
其他软件按需求安装。

2.2 配置 yolov5 深度学习环境

在这里插入图片描述

使用 SSH 链接超算节点后,需要在节点内配置运行环境。

超算节点安装好了一些默认环境,使用 module avail 可查看节点可用的软件列表。

在这里插入图片描述

使用 module load anaconda/2020.11 加载 anaconda 环境。
使用 conda creat -n torch110 Python=3.8 创建一个名为 torch110 的 python3.8 的虚拟环境。
使用 module load cuda/11.3 加载 cuda/11.3 环境。
使用 source activate torch110 激活 python 虚拟环境。
使用 conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge 安装 torch 1.10.0 环境,可依据需要自行安装其他 torch 版本环境。

然后使用 WinScp 工具将本地 yolov5 训练文件以及训练数据上传到超算节点的 run 文件夹下。

在这里插入图片描述

然后进入 yolov5 文件夹下,执行 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple some-package 安装 yolov5 需要的运行环境。

三、训练数据
3.1 创建 sub.sh 文件

在上传的 run/yolov5 文件夹下新建文件 sub.sh
sub.sh 中填入一下内容:

# sub.sh
# #!/bin/sh
# 加载 anaconda
module load anaconda/2020.11
# 加载 cuda 11.3
module load cuda/11.3
# 激活 python 虚拟环境
source activate torch110
export PYTHONUNBUFFERED=1
# yolov5 python 训练的的命令(此处需要自己依据自己训练的需要进行修改)
python train.py --img 640 --batch 16 --epoch 100 --data dataset/data/voc2007.yaml --cfg dataset/yolov5s_1.yaml --weights weights/yolov5s.pt

3.2 提交训练

使用 ssh 工具进入 sub.sh 根目录中,执行 sbatch --gpus=GPU数量 程序运行脚本 ,例如 sbatch --gpus=1 ./sub.sh 提交需要训练的数据到超算的计算节点。

3.3 查看提交结果
  1. 查看已提交作业
parajobs

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以点击这里获取!

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

t/forums/4f45ff00ff254613a03fab5e56a57acb)**

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Linux云计算运维是指在Linux系统中使用云计算技术进行运维管理的工作。Linux系统是一类操作系统,部署在服务器上,提供服务的机器。它具有开源和开放源代码的特点,能够最大化发挥硬件性能。Linux系统由内核和应用程序组成。内核的作用是驱动硬件正常工作,而应用程序则是在内核上运行的各种软件。 在Linux系统中,有多种发行版本可供选择,如红帽、麒麟和银河麒麟等。这些发行版本具有不同的特点和用途,用户可以根据自己的需求选择合适的版本。 对于公司希望在不同的云基础架构上运行各种工作负载的情况,可以采取多种策略来实现这一目标。例如,可以使用容器技术,将工作负载打包成容器,并在不同的云平台上部署和运行。另外,还可以利用自动化工具,如Ansible或Puppet,通过编写脚本来实现跨云平台的部署和管理。 在Linux系统中,可以使用命令来进行各种操作和管理。例如,可以使用命令来创建目录、生成文件名、以及查找和排序文件。通过调用命令的结果作为文件名称,可以实现一些灵活的操作和管理。 综上所述,Linux云计算运维是在Linux系统中利用云计算技术进行运维管理的工作。通过选择适合的发行版本、采用合适的策略和利用命令进行操作和管理,可以有效地进行云计算运维工作。<span class="em">1</span><span class="em">2</span><span class="em">3</span><span class="em">4</span>

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值