SLURM 作业调度系统使用
交互式申请终端进行代码调试:
$ salloc -N 1 --cpus-per-task=4 -t 5:00 -p GPU-V100
-N <节点数量>
–cpus-per-task=<单进程 CPU 核心数>
–gres=gpu:<单节点 GPU 卡数>
-t <最长运行时间>
-p <使用的分区>
–qos=<使用的 QoS>
执行成功后,SLURM 会给你一个新的 Shell,注意此时用户所在节点仍为主节点,需要 使用 ssh 命令手动切换到计算节点。
$ ssh comput1
交互式计算使用完毕后,先使用 exit 退出节点,再执行 exit 退出 SLURM 分配 的 Shell,可结束这次交互式任务。SLURM 会提示你交互式任务的资源已经被释放。
提交作业
$ sbatch xxx.sh
查看任务状态
$ scontrol show job XXXXX(jod id)
查看用户任务状态
squeue -u XXXXX(用户名)