相对全面的SLURM集群的配置、安装及一些小问题的解决

最新推荐文章于 2024-05-17 01:28:03 发布

大兔齐齐

最新推荐文章于 2024-05-17 01:28:03 发布

阅读量2.9w

点赞数 13

文章标签： slurm

本文链接：https://blog.csdn.net/Datuqiqi/article/details/50827040

版权

年前做了slurm集群的安装与配置，这里写出来与大家分享一下。安装配置的时候在网上找了很多资料，发现网上的版本都比较简单，很多东西没有说清楚，这里为大家一一详细说明，希望能对需要的朋友们有所帮助。同时我如有写错的地方请大家予以纠正，谢谢！联系QQ：1192625541

Slurm安装教程

OS：centos7 machine:master(主节点，也是计算节点),slaver1,slaver2,slaver3(3个计算节点)

1.首先是关于安装账户的问题，经常可以在网上看到一些slurm的安装教程先设置了一个slurm账户。在公司的人可能比较明白。因为在公司里想要拿到root账户几乎是不可能的，那现在安装的slurm谁是管理员呢？或者说以什么账户安装呢？对的，就是slurm账户。这就是需要建slurm账户的由来。每台机器上都要建立一个slurm账户！

好的，我们先建一个slurm账户，useradd命令

2.Slurm需要安装的组件

首先先yum -y install epel-release,添加第三方源，因为你当前的镜像源有可能找不到下面的包

常用的有gtk+-2.0，用来提供对sview实时任务查询的界面支持

安装命令：yum -y install gtk2

yum -y install gtk-devel

Munge:提供组件间的认证通信机制。这个需要在所有节点安装并且启动。

安装命令：yum -y install munge

yum -y install munge-devel

这个时候需要手动创建一些文件夹，这些文件夹在上述安装munge时是不会自动建立的，需要创建。分别是/etc/munge,/var/run/munge,/var/lib/munge,/var/log/munge，所有节点都要安装munge!!!!!

命令：mkdir /etc/munge

mkdir /var/run/munge

mkdir /var/lib/munge

mkdir /var/log/munge

然后修改上述文件夹的属主为slurm

命令：chown slurm:slurm /etc/munge

chown slurm:slurm /var/run/munge

chown slurm:slurm /var/lib/munge

chown slurm:slurm /var/log/munge

然后在一台节点上（我是在主节点上）生成munge的秘钥，存储在/etc/munge中

命令：/usr/sbin/create-munge-key

修改属主为slurm： chown slurm:slurm /etc/munge/munge.key

其余节点要各拷贝一份

命令：scp /etc/munge/munge.keyroot@<src-node>:/etc/munge

然后在各个节点上以slurm账户启动munge（之后不说明的地方都是以root账户）

命令：munged

PS命令查看是否启动了munge

命令：ps aux | grep munged

3.Slurm的安装

slurm的安装有三种方式，一是源码编译，二是yum安装，三是rpm安装。强烈建议源码编译，因为尝试过三种方法之后感觉第一种最好，坑少。

假设下载的是slurm-14.11.9，解压后进入文件夹，然后

命令：./configure （--prefix=/usr/local/slurm--sysconfdir=/usr/local/slurm/conf）

make

make install

括号内的东西可加可不加，我安装的时候没有加。这里的prefix是安装目录，后面的sysconfdir是配置文件的目录，这个在这里指定的话并不会新建一个文件夹，而是之后slurm读取配置文件是从这个位置读取。

（如果加了的话执行完上述命令之后会在。/usr/local/slurm下产生5个文件夹，sbin等。

这时候又需要手动建立一些文件夹了。所以最好不要加这些设置。。。。因为configure文件里已经指定了不加的时候默认的各个文件夹）

启动集群：

Master节点需要执行 slurmctld -c 和slurmd-c，都是以root账户执行

所有Slaver节点都执行 slurmd -c

配置文件说明：

首先是我在集群上的配置文件（每一行都做了注释）：

# Example slurm.conffile. Please run configurator.html

# (in doc/html) tobuild a configuration file customized

# for yourenvironment.

# slurm.conf filegenerated by configurator.html.

# See theslurm.conf man page for more information.

ClusterName=biostacs //集群名

ControlMachine=master //主节点名

ControlAddr=192.168.122.1 //主节点地址，局域网

#BackupController=

#BackupAddr=

SlurmUser=slurm //主节点管理账号

#SlurmdUser=root

SlurmctldPort=6817 //主节点服务默认端口号

SlurmdPort=6818 //子节点服务默认端口号

AuthType=auth/munge //组件间认证授权通信方式，使用munge

#JobCredentialPrivateKey=

#JobCredentialPublicCertificate=

StateSaveLocation=/tmp //记录主节点状态的文件夹

SlurmdSpoolDir=/tmp/slurmd //子节点状态信息文件

SwitchType=switch/none

MpiDefault=none

SlurmctldPidFile=/var/run/slurmctld.pid //主服务进程文件

SlurmdPidFile=/var/run/slurmd.pid //子节点进程文件

ProctrackType=proctrack/pgid //监控任务与进程间的关系

#PluginDir=

CacheGroups=0

#FirstJobId=

ReturnToService=0

#MaxJobCount=

#PlugStackConfig=

#PropagatePrioProcess=

#PropagateResourceLimits=

#PropagateResourceLimitsExcept=

#Prolog=

#Epilog=

#SrunProlog=

#SrunEpilog=

#TaskProlog=

#TaskEpilog=

#TaskPlugin=

#TrackWCKey=no

#TreeWidth=50

#TmpFS=

#UsePAM=

# TIMERS

SlurmctldTimeout=300

SlurmdTimeout=300

InactiveLimit=0

MinJobAge=300

KillWait=30

Waittime=0

# SCHEDULING

SchedulerType=sched/backfill

#SchedulerAuth=

#SchedulerPort=

#SchedulerRootFilter=

SelectType=select/linear

FastSchedule=1

#PriorityType=priority/multifactor

#PriorityDecayHalfLife=14-0

#PriorityUsageResetPeriod=14-0

#PriorityWeightFairshare=100000

#PriorityWeightAge=1000

#PriorityWeightPartition=10000

#PriorityWeightJobSize=1000

#PriorityMaxAge=1-0

# LOGGING

SlurmctldDebug=3

SlurmctldLogFile=/var/log/slurmctld.log //主节点log日志

SlurmdDebug=3

SlurmdLogFile=/var/log/slurmd.log //子节点log日志

JobCompType=jobcomp/none

#JobCompLoc=

# ACCOUNTING

#JobAcctGatherType=jobacct_gather/linux

#JobAcctGatherFrequency=30

#AccountingStorageType=accounting_storage/slurmdbd

#AccountingStorageHost=

#AccountingStorageLoc=

#AccountingStoragePass=

#AccountingStorageUser=

# COMPUTE NODES

#NodeName=master,slaver1CPUs=2 RealMemory=32000 Procs=1 State=UNKNOWN

//节点名称，CPUs核数，corepersocket,threadspersocket,使用lscpu查看，realmemory实际分配给slurm内存，procs是实际CPU个数，/proc/cpuinfo里查看 state=unknown是刚启动集群的时候为unknown，之后会变成idle

NodeName=master,slaver1,slaver2,slaver3CPUs=24 CoresPerSocket=6 ThreadsPerCore=2 RealMemory=30000 Procs=1State=UNKNOWN

PartitionName=controlNodes=master Default=NO MaxTime=INFINITE State=UP

//partitionname是分成control和compute，default=yes是说这个用来计算，我们设置slaver1/2/3这三台default为yes，用来计算的

PartitionName=computeNodes=slaver1,slaver2,slaver3 Default=YES MaxTime=INFINITE State=UP

#PartitionName=debugNodes=linux[1-32] Default=YES MaxTime=INFINITE State=UP

这就是配置文件的全部内容。

安装完成后执行sinfo命令，如果所有机器都是下图

则集群启动正常。State有idle（空闲），salloc（占用）,unknown（刚启动时可能出现），down（连不上）等状态。

一些小的问题：

1.如果修改了配置文件slurm.conf,则请在master上执行scontrol reconfig命令更新配置文件。

2.目前集群所有机器的配置文件是一样的，如果修改了请把所有机器的conf都相应修改掉

3.查看各个节点的情况 scontrol show node如果出现not responding说机器通信有问题

4.如果要看上述3中的机器的具体原因可以查看每台机器的具体日志，目录为/var/log/slurmd.log

在master上还可以查看/var/log/slurmctld.log

5.如果某个节点down很久了，后来你找到原因了，觉得解决了。此时因为长时间down需要update整个集群，命令为 scontrol updatenode=master,slaver1,slaver2,slaver3 state=idle

6.建立slurm用户的时候查看id slurm 会显示uid=1001(slurm),gid=1001(slurm),group=1001(slurm)【我的集群上】。注意每台机器上都要建一个slurm账户，当你查看发现有的机器上id slurm不一致的时候，可能有的机器是1000，这时候需要修改uid和gid为1001，所有节点一定要保持一致！然后如果之前手动建立的munge文件夹是在1000时候建立的，改了之后要把之前的文件夹删掉重新建一遍！

7.Sview来图形化查看任务状态，这个需要在本地有一个vnc的客户端，在master上开一个vncsever就可以连了，然后sview，否则直接命令窗登陆会看到cannot open display

文件存储的问题：

现在集群是master节点一个，slaver1-3是计算节点，slaver4是存储节点，我已经把slaver4的/home/bio/data1/data挂载到了master和1、2、3的/home/bio/data1/data文件夹下，这样大家可以传数据到master的/home/bio/data1/data文件夹下运行，实际上这些数据是放到了4下面。Master/1/2/3共享了4的/home/bio/data1/data文件夹

Slurm运行任务：

Slurm的任务提交方式有3种，命令行直接提交srun,脚本提交sbatch,分配资源后提交salloc.

命令行提交直接提交适用于快速简单的单个任务，脚本提交适用于多个串行或并行任务组成的任务集，分配资源提交跟脚本提交类似，允许先分配资源，然后逐渐提交任务。

Srun运行参数

--begin 设定任务开始时间例如16:00，now+1hour

--N 指定节点数例如-N3

-n 指定并行任务数例如-n3

-o 指定标准输出路径

-time 指定耗时上限

Sbatch是脚本提交，脚本里面直接多个srun命令即可

参数如上。注意：-N指定节点数不能小于里面srun指定的数目

距离存在a.pl执行

Srun -N3 perl a.pl

注意执行slurm命令的时候回车会返回一个job号，然后产生一个slurm-job号.out文件，提交完命令后可以立刻查看一下out文件，如果里面什么都没有，恭喜你，执行成功了，在sview里可以看到。注意一定要查看下out文件，因为执行错了有时候也会在sview里出现该任务。一般报错都会在out文件里呈现。

大兔齐齐

关注

13
点赞
踩
65

收藏

觉得还不错? 一键收藏
打赏
3
评论
相对全面的SLURM集群的配置、安装及一些小问题的解决

年前做了slurm集群的安装与配置，这里写出来与大家分享一下。安装配置的时候在网上找了很多资料，发现网上的版本都比较简单，很多东西没有说清楚，这里为大家一一详细说明，希望能对需要的朋友们有所帮助。同时我如有写错的地方请大家予以纠正，谢谢！联系QQ：1192625541Slurm安装教程OS：centos7 machine:master(主节点，也是计算节点),slaver1,slave
复制链接

扫一扫