节点状态查看
命令:
sinfo
说明:
PARRITION:节点所在分区
AVAIL:分区状态,up 标识可用,down 标识不可用
TIMELIMIT:程序运行最大时长,infinite 表示不限制,如果限制格式为 days-houres:minutes:seconds
NODES:节点数
NODELIST:节点名列表
STATE:节点状态,可能的状态包括:
allocated、alloc :已分配
completing、comp:完成中
down:宕机
drained、drain:已失去活力
fail:失效
idle:空闲
mixed:混合,节点在运行作业,但有些空闲 CPU 核,可接受新作业
reserved、resv:资源预留
unknown、unk:未知原因
如果状态带有后缀 *,表示节点没有响应
节点信息查看
命令:
scontrol show node
说明:
NodeName 节点名称
Arch 系统架构
CoresPerSocket
CPUAlloc 分配给的 CPU 核数
CPUErr 出错的 CPU 核数
CPUTot 总的 CPU 核数
CPULoad CPU 负载
AvailableFeatures 可用特性
ActiveFeatures 激活的特性
Gres 通用资源
NodeAddr 节点 IP 地址
NodeHostName 节点名
Version SLURM 版本
OS 操作系统
RealMemory 实际的物理内存,单位 GB
AllocMem 已分配的内存,单位 GB
FreeMem 可用内存,单位 GB
Sockets
Boards 主板数
State 节点状态
ThreadsPerCore CPU 线程数
TmpDisk 临时硬盘存储大小
Weight 权重
Owner
MCS_label
Partitions
BootTime 开机实际
SlurmdStartTime SLURM 守护进程启动时间
CfgTRES
AllocTRES
CapWatts
CurrentWatts
LowestJoules
ConsumedJoules
ExtSensorsJoules
ExtSensorsWatts
ExtSensorsTemp
Reason
节点状态值
可能的状态包括:
allocated(alloc), completing(comp), down(down), drained(drain), draining(drng), fail(fail), failing(failg), future(futr), idle(idle), maint(maint), mixed(mix), perfctrs(npc), power_down(pow_dn), power_up(pow_up), reserved, and unknown(unk)。
请注意,后缀 “*” 标识当前未响应的节点。
idle 表示节点处于空闲状态
alloc 表示节点所有 CPU 都被占用,新提交的作业将排队。
drain 出现这个状态时,不影响正在运行的作业,但是不接受新的作业调度,可以使用命令 sinfo –R 打印节点不正常的状态产生原因
节点状态值.png
mix 节点具有分配 CPU 的作业,而其他的 CPU 状态是 IDLE,新提交的作业继续运行
unk Slurm 控制器刚刚启动,节点的状态尚未确定。
down 故障节点不可用。
分区信息查看
命令:
show partition
说明:
DisableRootJobs: 不允许 root 提交作业
Maxtime:最大运行时间
LLN:是否按最小负载节点调度
Maxnodes:最大节点数
Hidden:是否为隐藏分区
Default:是否为默认分区
OverSubscribe:是否允许超时
ExclusiveUser:排除的用户
作业信息查看
命令:
squeue
说明:
JOBID:作业号
PARITION:分区名
NAME:作业名
USER:用户名
ST:状态,常见的状态包括:
PD、Q:排队中 ,PENDING
R:运行中 ,RUNNING
CA:已取消,CANCELLED
CG:完成中,COMPLETIONG
F:已失败,FAILED
TO:超时,TIMEOUT
NF:节点失效,NODE FAILURE
CD:已完成,COMPLETED