Slurm常用命令
查询指定时间段作业详情
sacct -n -a -p --starttime 2021-10-07T00:00:00 --endtime 2021-10-07T10:00:00 --format=JobId,state,user,account,partition,jobname,nodelist,nnodes,submit,start,end,suspended,ncpus,MaxRss,elapsed,allocgres
当前排队作业数量
sacct --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep PENDING
当前运行数量
sacct --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep RUNNING
近几分钟内异常退出作业数量
sacct -S2020-03-09-16:00:00 -E2020-03-10-16:00:00 --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep FAILED
近几分钟内正常完成作业数量
sacct -S2020-03-09-16:00:00 -E2020-03-10-16:00:00 --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep COMPLETED
当前可用节点数量
sinfo --states=idle
当前异常节点数量
sinfo --states=down
当前作业运行节点数量
sinfo --states=alloc
查看队列状态
sinfo -O partitionname,nodes,time,cpusstate:.30
输出
字段 | 备注 |
---|---|
PARTITION | 队列 |
NODES | 队列节点数 |
TIMELIMIT | 运行时间限制 |
CPUS | (A:占用核数、I: 空闲核数、O:不可用核数、T:总核数) |
查看当前运行或排队的作业号
squeue -h -o "%.18i "