【Slurm】Slurm使用故障&workaround记录

1. Node状态Drain,Reason显示low socket-core-thread-cpu count

什么原因导致的还不清楚。后续研究下复现方法
重置状态方法如下:

# scontrol update NodeName=(你的NodeName) State=RESUME

state直接重置为IDLE也行。看网络文章区别在于,如果有job在该node上运行,建议用RESUME;如果没有job运行可以用IDLE

2. The host (**)is not a valid controller

检查slurm.conf内ControlMachine的名称是否正确。

3. 编译缺少HD5Open

在ubuntu下编译时候,发现缺少hdf5相关库。查询资料安装hdf5相关包后错误依然存在。
于是编译时候打算跳过hdf5

# ./configure --enable-debug --with-munge --with-hdf5=no

4. 恢复处于down状态的node

机器或者集群重启或者恢复后,有时候node会处于down状态

(base) root@yc:~# sinfo
PARTITION  AVAIL  TIMELIMIT  NODES  STATE NODELIST
test    up   infinite      1   down yc

使用scontrol命令可以恢复节点

scontrol update NodeName=yc State=RESUME

再次检查node状态,显示已经恢复成idle

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值