中科曙光智算平台的使用

本文讲述了如何在曙光智算平台上配置Python环境、使用SLURM调度资源、编写并提交作业,以及解决Keras查找问题的过程。
摘要由CSDN通过智能技术生成

曙光智算平台的初使用

最近得到了中科曙光服务器的免费体验资格,也是第一次用服务器跑深度学习 (穷啊,买不起服务器,实验室又不给配),记录一下这个入门过程。

使用入门

添加链接描述
在这里插入图片描述
进入命令行模式:
在这里插入图片描述
应该是也可以界面操作
进入后就按照linux环境下配置python环境,但不要在这里运行,这里是登录节点,不是计算节点,要使用sbatch提交作业到计算节点进行模型训练。
具体操作可以参考:
曙光智算入门手册
其通过slurm管理计算资源的调度,这个暂时不重要不用管
在这里插入图片描述
这里默认配置好了深度学习程序的运行环境,就是安装anaconda,pytorch或者tensorflow等框架,然后在工程文件夹下建立一个脚本,比如:run.sh, 通过配置这个脚本来提交作业。
比如:

#!/bin/bash
#指定作业提交的队列
#SBATCH -p kshdsctest
#指定作业申请的节点数
#SBATCH -N 1
#指定每个节点运行进程数。
#SBATCH --ntasks-per-node=32
#指定任务需要的处理器数目
#SBATCH --cpus-per-task=1
#指定每个节点使用通用资源的名称及数量
#SBATCH --gres=dcu:4
#作业名称,使用squeue看到的作业名
#SBATCH -J ceshi

#指定作业标准结果输出文件名称
#SBATCH -o output.txt
#指定作业标准错误输出文件名称
#SBATCH -e error.txt

#添加环境变量
#export MIOPEN_DEBUG_CONV_IMPLICIT_GEMM=0
PYTHON_HOME=/public/home/ac4r2lhqwl/miniconda3/envs
export PATH=$PYTHON_HOME/bin:$PATH
source ~/miniconda3/bin/activate
conda activate test

#加载本地环境 
module load compiler/rocm/dtk-22.10.1 

#运行程序
python3 run.py

PYTHON_HOME的路径换成自己的,加载本地环境的时候可以使用

module avail

查看集群现有软件活库
确定不了是哪个就都给它加载进来

因为使用sbatch提交作业后没法实时输出,但可以将输出定向到文件中,这里是output.txt
准备工作作好后

  1. 提交作业
sbatch run.sh

在这里插入图片描述

  1. 查看作业
squeue

在这里插入图片描述
3. 如果作业停了可能是程序有错误或者配置有错误,通过 cat error.txt查看
4. 实时查看输出通过tail -f output.txt查看,output.txt是在sh文件中配置过的
5. 取消作业

scancel 作业号 (JOBID)

终于跑起来了
在这里插入图片描述

踩坑记录

提交作业后一直提示找不到Keras,但明明都安装了,我一直以为是在sh文件中国加载的环境错误,试了又试还是不行,最后发现是因为
tensorflow和keras的版本不匹配导致的

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值