ubuntu环境下部署slurm+enroot+pyxis实现应用的调度及管理

一、环境说明

这里使用3台服务器,分别安装了不同版本的Ubuntu系统(22.04和20.04),其中一台服务器作为管理节点,没有安装GPU,另外两台服务器作为计算节点,安装了GPU。
三台服务器均配置了SSH免密登陆,NFS服务和NIS服务,具体方法可参考:
ssh配置
nfs配置
nis配置
管理节点需要运行的slurm服务有slurmdbd(记账服务)、slurmctld(控制管理服务)。另外还需要在管理节点安装mysql数据库,用于slurmdbd(记账服务)存储数据。
计算节点只需要运行slurmd(作业调度服务)即可。
所有节点均需要进行enroot和pyxis开源软件的安装。

调度系统:slurm+enroot+pyxis

二、问题记录

Database settings not recommended values: innodb_buffer_pool_size innodb_lock_wait_timeout错误解决办法参考如下链接:

来自 https://blog.csdn.net/qq_34149581/article/details/115273509

cannot find cgroup plugin for cgroup/v2

参考如下链接,改为cgroup/v1
CgroupPlugin=cgroup/v1
来自 https://github-wiki-see.page/m/hokiegeek2/slurm-cloud-integration/wiki/slurm-installation-and-administration

缺少debuild软件包导致的pyxis编译错误

sudo apt install build-essential devscripts debhelper

来自 https://github.com/NVIDIA/nccl/issues/150

缺少libslurm-dev导致无法编译pyxis

sudo apt install libslurm-dev

Command not found: squashfuse

执行如下命令安装
apt-get install squashfuse
来自 https://command-not-found.com/squashfuse

munge编译过程中的没有安装mysql-devel环境,导致在编译slurm的时候不能够编译相应的插件。

此时通过yum -y install msyql-devel安装依赖环境,然后重新编译解决 。

来自 https://www.bbsmax.com/A/Ae5R2NDM5Q/

参考链接:
https://blog.csdn.net/xhk12345678/article/details/124710528
https://slurm.schedmd.com/quickstart.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值