场景使用:一台8卡gpu服务器,想要多人使用,每次提交任务可以使用一块卡【也可以使用两块,具体需要配置】,比如第9个人使用时就要排队,等前面8个人用完才可以使用gpu做计算,基于这样的一个情况,我研究了下slurm,花了两天时间终于实现了我需要的功能,以下是我所有的部署操作,一份很完整的单机slurm部署文档。
一、准备工作
-
关闭防火墙、禁用selinux
-
机器为两颗cpu,单颗16核心,8块RTX6000显卡
二、安装munge, munge用于创建和验证凭据的身份验证服务
1.安装munge
yum -y install libgcrypt openssl epel-release
2.创建munge账户
export MUNGEUSER=2020
groupadd -g $MUNGEUSER munge
useradd -m -c "MUNGE Uid 'N' Gid Emporium" -d /var/lib/munge -u $MUNGEUSER -g munge -s /sbin/nologin munge
yum -y install munge munge-libs munge-devel(默认会创建账户)
3.生成密钥
安装rng-tools以正确创建密钥:
yum -y install rng-tools
rngd -r /dev/urandom
/usr/sbin/create-munge-key -r
dd if=/dev/urandom bs=1 count=1024 > /etc/mu