1、如何初始化分区(节点)状态(将drain状态转为idel)
sudo scontrol update NodeName=roota-X299-UD4-Pro State=RESUME
2、如何删除节点上的任务(占用的和申请中的)
(149条消息) SLURM 节点状态总是drained问题_kongxx的博客-CSDN博客_slurm drain
scancel 16(进程号)
3、查看分区信息和节点信息
查看分区信息 scontrol show partition
查看节点信息 scontrol show node
4、启动slurmd和slurmctld报错(slurmd.service: Failed with result 'exit-code'.)
在Ubuntu 16.04桌面上安装/模拟SLURM:slurmd无法启动 中国服务器网 (zgserver.com)
解决办法:
sudo slurmctld -dvvv
和
sudo slurmd -dvvv
5、sudo systemctl start slurmd失败,并且systemctl status slurmd中出现Failed to start slurm node daemon.
时候,同时cat /var/log/slurm.log
后看到cannot create proctrack context for proctrack/cgroup
错误的时候。
systemctl status slurmd中修改ProctrackType的值为proctrack/linuxproc
6、slurmctld报错fatal: Invalid SelectTypeParameters: CR_MEMORY (16), You need at least CR_(CPU|CORE|SOCKET)*
引用:slurm作业系统只能同时运行一个任务 - 计算机使用与Linux交流 (Computer Usage and Linux) - 计算化学公社 (keinsci.com)
SelectType=select/cons_tres
SelectTypeParameters=CR_Core