【GPU】计算集群Slurm使用

小丫么小阿豪

已于 2022-02-22 09:52:28 修改

阅读量1w

点赞数 16

分类专栏：效率工具文章标签：人工智能 linux centos 神经网络

于 2022-01-26 20:59:47 首次发布

本文链接：https://blog.csdn.net/qq_43426078/article/details/122181437

版权

效率工具专栏收录该内容

29 篇文章

订阅专栏

Motivation

之前从来没有用过集群，跑代码都是用单独的服务器，第一次上手组里的集群懵逼了一天。中文的博客大部分都写的很一般，有些我想知道的问题也找不到答案。所以就想着，自己一遍学习一边记录一下，做成一个入门的介绍，方便自己和其他新入门的朋友查看。

查看节点状态

sinfo

输出参数的含义

PARRITION：节点所在分区
AVAIL：分区状态，up 标识可用，down 标识不可用
TIMELIMIT：程序运行最大时长，infinite 表示不限制，如果限制格式为 days-houres:minutes:seconds
NODES：节点数
NODELIST：节点名列表
STATE：节点状态，可能的状态包括：

allocated、alloc ：已分配
completing、comp：完成中
down：宕机
drained、drain：已失去活力
fail：失效
idle：空闲
mixed：混合，节点在运行作业，但有些空闲 CPU 核，可接受新作业
reserved、resv：资源预留
unknown、unk：未知原因
如果状态带有后缀 *，表示节点没有响应

参考博客：

https://blog.csdn.net/u010797364/article/details/120724996?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~aggregatepage~first_rank_ecpm_v1~rank_v31_ecpm-2-120724996.pc_agg_new_rank&utm_term=slurm+查看节点状态&spm=1000.2123.3001.4430