集群管理系统Slurm安装与使用

本文介绍了集群管理系统Slurm的安装与使用,包括常用命令如提交作业、查看作业状态和终止作业。Slurm适用于批量处理长时间运行的任务,支持资源分配如GPU。文中还给出了请求GPU资源的示例。
摘要由CSDN通过智能技术生成

Slurm 是一个批处理管理器,它允许您提交任务并请求必须为作业保留的特定数量的资源。 例如,资源可以是内存、处理核心的数量、GPU 甚至是机器数量。 此外,Slurm 允许您轻松启动作业数组,例如使用不同的参数设置对算法进行基准测试。 提交作业后,它会被排入等待队列,并将一直留在那里,直到所需资源可用为止。 因此,Slurm 非常适合执行长时间运行的任务。

1.slurm常用命令

sbatch: 提交任务或作业

使用方法:
sbatch sbatchscript.sh
其中,sbatchscript.sh 文件是一个普通的 bash 或 sh 脚本。

squeue: 查看排队的作业数量

scancel: kill任务

使用方法:
scancel JOB_ID

2.示例

(1) 一个使用 CPU 的代码示例如下:

#!/bin/bash
#SBATCH --job-name=MyJob
#number of independent tasks we are going to start in this scrip
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值