一份完整的单机版slurm部署

本文详述了一台8卡GPU服务器上如何部署slurm,以便多人使用并实现任务调度。通过关闭防火墙、禁用selinux,安装munge和slurm,配置slurm.conf和启动服务,最终实现GPU资源的有序分配和计算任务的排队执行。
摘要由CSDN通过智能技术生成

 

场景使用:一台8卡gpu服务器,想要多人使用,每次提交任务可以使用一块卡【也可以使用两块,具体需要配置】,比如第9个人使用时就要排队,等前面8个人用完才可以使用gpu做计算,基于这样的一个情况,我研究了下slurm,花了两天时间终于实现了我需要的功能,以下是我所有的部署操作,一份很完整的单机slurm部署文档。

一、准备工作

  • 关闭防火墙、禁用selinux

  • 机器为两颗cpu,单颗16核心,8块RTX6000显卡

 

二、安装munge, munge用于创建和验证凭据的身份验证服务

1.安装munge

 yum -y  install libgcrypt openssl  epel-release

 

2.创建munge账户

export MUNGEUSER=2020

groupadd -g $MUNGEUSER munge

useradd  -m -c "MUNGE Uid 'N' Gid Emporium" -d /var/lib/munge -u $MUNGEUSER -g munge -s /sbin/nologin munge

yum -y  install  munge munge-libs munge-devel(默认会创建账户)

 

3.生成密钥

安装rng-tools以正确创建密钥:

yum -y install rng-tools

rngd -r /dev/urandom

/usr/sbin/create-munge-key -r

dd if=/dev/urandom bs=1 count=1024 > /etc/mu

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Slurm是一个用于作业调度和管理的开源软件。它被广泛应用于各种场景,包括本地服务器集群、混合云计算和云端计算等。在本地服务器集群中,Slurm可以组织多台服务器进行计算任务的调度和编排。在混合云计算环境中,Slurm同样可以使用,可以直接让供应商提供技术支持。云端的计算和超算中心也使用Slurm进行作业编排,而且云端环境不需要自己部署,直接使用即可,并且由专业的公司维护,稳定性更高。此外,还有一些开源工具可用于部署和管理Slurm集群,例如Omnia。Omnia是Dell HPC推出的开源集群部署工具,基于ansible进行部署k8s/slurm集群。你可以在GitHub上找到有关Omnia的更多信息。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [基于Centos7的slurm集群部署方案(测试环境)](https://blog.csdn.net/mogui60/article/details/125069490)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Slurm集群部署](https://blog.csdn.net/weixin_31105189/article/details/113999400)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Slurm集群安装部署](https://blog.csdn.net/qq_31910613/article/details/123983153)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值