Slurm作业管理系统常用命令和教程

Slurm是一个开源的Linux集群资源管理和作业调度系统,适用于大型和小型集群。本文介绍了Slurm的基本概念,包括查看分区状态、作业队列、作业状态等常用命令,以及通过sbatch批处理和salloc分配模式提交作业的方法。北鲲云超算平台也采用Slurm,提供了完整教程和技术支持,方便用户快速进行计算。
摘要由CSDN通过智能技术生成

Slurm ( Simple Linux Utility for Resource Management )是开源的、具有容错性和高度可扩展大型和小型 Linux集群资源管理和作业调度系统。超级计算系统可利用 Slurm 进行资源和作业管理,以避免相互干扰,提高运行效率。所有需运行的作业无论是用于程序调试还是业务计算均必须通过交互式并行 srun、批处理式 sbatch 或分配式 salloc 等命令提交,提交后可以利用相关命令查询作业状态等。

同时北鲲云超算平台也是使用的Slurm作业管理系统,熟悉slurm作业管理系统的同学可以快速上手北鲲云进行计算,不熟悉的也没关系,一是可以学,我们有完整的教程以及技术支持服务,另外就是平台还提供模板提交方式,无需it基础也可以快速进行计算。直接按照模板提示提交作业即可。多种软件覆盖多个行业,欢迎来试一试。

一. 常用命令​

sinfo       #查看分区状态
squeue      #查看队列中的作业
scontrol    #查看作业详细信息
scancel     #取消已经提交的作业
sbatch      #批处理式提交作业
salloc      #分配式运行作业
  1. 查看分区状态​
sinfo

CPU分区命名规则为c-核心数-每核心内存大小,如c-8-4:表示单节点规格为8核,每核心有4G内存,即节点规格为8核32G。

GPU分区命名规则为g-卡号-每节点卡数࿰

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值