因为比较顺利地安装好slurm,整理好了一些遇到的问题,希望能帮到大家。
我参考这篇博客安装http://blog.csdn.net/datuqiqi/article/details/50827040
需要至少两台linux系统的机器,我用的虚拟机模拟。
在这篇博客中发现的几个坑:
1.
# scp /etc/munge/munge.keyroot@node:/etc/munge
这里的node用你的root用户名替换
2.slurm安装
具体方法这篇博客没有写具体。分享下我的方法:
从https://www.schedmd.com/ 下载。
进入网站后先点开左边选项里download,因为我的虚拟机系统是centos6.3版本,进入页面后点OLDER VERSIONS,右键新标签页打开slurm-xxx.tar.bz2,记下网址。比如我选择的是slurm-16.05.11.tar.bz2,从firefox得到的网址是。https://download.schedmd.com/slurm/slurm-16.05.11.tar.bz2 。然后在家目录操作
# wget https://download.schedmd.com/slurm/slurm-16.05.11.tar.bz2
编译安装前需安装gcc
1. # yum -y install gcc
接着解压安装
1. # tar -jxvf slurm-16.05.11.tar.bz2
2. # cd /root/slurm-16.05.11
3. # ./configure
4. # make
5. # make install
安装成功!
3.配置slurm(博客里没写清楚文件位置)
我用find命令找到 slurm.conf.example 所在目录,然后进入该目录。
# cd /root/slurm-16.05.11/etc
# cp slurm.conf.example slurm.conf
# vi slurm.conf
4.按照博客修改配置文件。
注意:硬件参数需要填写正确,否则会报错。
(补充)然后将配置好的conf文件发送到计算节点:
# scp /root/slurm-16.05.11/etc/slurm.conf root@node:/etc/slurm/slurm.conf
5.启动集群:
Master节点需要执行 slurmctld -c 和slurmd-c,都是以root账户执行
所有Slaver节点都执行 slurmd -c
在Master节点执行 slurmd -c 命令时,我这里报错:
# slurmd: error: s_p_parse_file: unable to status file /usr/local/etc/slurm.conf: No such file or directory, retrying in 1sec up to 60sec
解决方法:
# cp /root/slurm-16.05.11/etc/slurm.conf /usr/local/etc/slurm.conf
Slaver节点执行 slurmd -c 命令同样会报错,我就同样copy一个文件出来。我没发现比较好的办法,只能麻烦点。
最后可以参考https://www.schedmd.com/ 获得操作slurm的命令。
本篇文章可能存在的问题,请大家指正。码字不易,还望包容。