1、首先更新系统到最新
sudo apt update
sudo apt upgrade
2、安装软件包
sudo apt install slurm-wlm munge
3、配置 Munge
生成 Munge key,并确保 Munge 服务启动。
sudo /usr/sbin/create-munge-key
sudo systemctl enable munge
sudo systemctl start munge
4、配置 Slurm
创建 Slurm 配置文件 /etc/slurm-llnl/slurm.conf。以下是一个简单的配置示例:
sudo vim /etc/slurm-llnl/slurm.conf
将以下内容粘贴进去
Example slurm.conf file.
#集群名称 这里设置的是linux
ClusterName=linux
#设置localhost表示slurm控制守护进程运行在本地
SlurmctldHost=localhost
#指定默认的mpi类型,none表示的是不适用mpi
MpiDefault=none
#指定进程跟踪类型。这里设置为 proctrack/linuxproc,使用Linux的进程跟踪机制。
ProctrackType=proctrack/linuxproc
#如果设置为 1,表示节点从维护状态返回时自动恢复服务。
ReturnToService=1
#指定Slurm计算守护进程 (slurmd) 的端口。这里设置为 6818。
SlurmdPort=6818
#指定Slurm计算守护进程的临时存储目录。这里设置为 /var/spool/slurmd。
SlurmdSpoolDir=/var/spool/slurmd
#指定运行Slurm守护进程的用户。这里设置为 slurm。
SlurmUser=slurm
#指定保存Slurm状态的目录。这里设置为 /var/spool/slurmctld。
StateSaveLocation=/var/spool/slurmctld
#指定网络交换机类型。这里设置为 switch/none,表示不使用特定的网络交换机类型。
SwitchType=switch/none
#指定任务管理插件。这里设置为 task/none&