Slurm
是一个批处理管理器,它允许您提交任务并请求必须为作业保留的特定数量的资源。 例如,资源可以是内存、处理核心的数量、GPU 甚至是机器数量。 此外,Slurm
允许您轻松启动作业数组,例如使用不同的参数设置对算法进行基准测试。 提交作业后,它会被排入等待队列,并将一直留在那里,直到所需资源可用为止。 因此,Slurm
非常适合执行长时间运行的任务。
1.slurm常用命令
sbatch:
提交任务或作业
使用方法:
sbatch sbatchscript.sh
其中,sbatchscript.sh 文件是一个普通的 bash 或 sh 脚本。
squeue:
查看排队的作业数量
scancel:
kill任务
使用方法:
scancel JOB_ID
2.示例
(1) 一个使用 CPU
的代码示例如下:
#!/bin/bash
#SBATCH --job-name=MyJob
#number of independent tasks we are going to start in this scrip