Slurm重启后Drain以及运用update出现slurm_update error: Invalid user id
问题描述
提交文件时出现这样的问题,显示目前集群在排队
查看目前集群状态
sinfo
可见此时state是drain,一般让这个State异常注水占用的原因是重启导致的
解决方案
如果直接scontrol update会报错
要先切换一下root权限才可以update state
RESUME设置适合有正在跑任务的情况
sudo su
scontrol update NodeName=xulab-7920-Tower State=RESUME
接着查看集群状态是否恢复
sinfo
查看状态转换为idle,再将用户切换为子用户即可使用