SLURM 安装与配置
SLURM 介绍
SLURM 是一个可用于大型计算节点集群的高度可伸缩的集群管理器和作业调度系统。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。SLURM 将作业分发给一组已分配的节点来执行。
本质上,SLURM 是一个强健的集群管理器,它高度可移植、可伸缩至大型节点集群、容错好,而且更重要的是它是开源的。
关于 SLURM 的架构可以参考 http://slurm.schedmd.com/
安装 SLURM
这里安装都是以在CentOS6.5上安装为例。并且因为 SLURM 是在集群中使用,所以我们这里假定有三台相同版本的linux,机器名分别为mycentos6x,mycentos6x1和mycentos6x2,其中 mycentos6x 作为控制节点。
安装 MUNGE
首先 SLURM 需要使用 MUNGE 来认证,所以我们要先来安装 MUNGE。
从 MUNGE(https://github.com/dun/munge) 的官方网站下载安装包,这里使用 munge-0.5.11.tar.bz2 文件。使用 root 用户运行下面命令
编译并安装 munge 包
# rpmbuild -tb --clean munge-0.5.11.tar.bz2# cd /root/rpmbuild/RPMS/x86_64# rpm --install munge*.rpm
- 1
- 2
- 3
在编译rpm包和安装的过程中可能会提示需要一些第三方的软件包,此时可以使用 “yum install -y xxx” 来安装,我在安装的时候就是先安装了下面的软件包
# yum install -y rpm-build rpmdevtools bzip2-devel openssl-devel zlib-devel
- 1
安装完成后,需要修改下面这些文件的权限
# chmod -Rf 700 /etc/munge# chmod -Rf 711 /var/lib/munge# chmod -Rf 700 /var/log/munge# chmod -Rf 0755 /var/run/munge
- 1
- 2
- 3