搭建slurm

搭建slurm

本地环境

  1. 系统:centos7.6

  2. VMwareWrok Station Pro15.1.0

  3. 3台虚拟机配置

    control:cpu=1,mem=1G
    compute1:cpu=1,mem=1G
    compute2:cpu=1,mem=1G
    
  4. slurm版本19.05.2-1

  5. NFS服务端、NIS服务端、slurmctldslurmdbdslurmd部署在control节点,slurmd部署在compute[1-2],数据库部署在compute2节点。

配置centos环境

配置网卡开机自启,以及DNS

配置网卡开机自启

$ vim etc/sysconfig/network-scripts/ifcfg-ens33 # 将ONBOOT=no这一项改为ONBOOT=yes
$ service network restart

配置DNS

$ vim /etc/NetworkManager/NetworkManager.conf 
# 在[main]下,添加dns=no

添加DNS地址

$ vim /etc/resolv.conf
# 添加 namesever 8.8.8.8
# 添加 nameserver 114.114.114.114
关闭防火墙,包括firewalld和selinux

关闭firewalld

$ systemctl disable firewalld

关闭selinux

$ vi /etc/selinux/config
# 将SELINUX的值设置为disabled,下次开机则不会自启

检测selinux状态

getenforce
配置ssh免密登录

安装ssh服务

$ yum install openssl openssh-server -y

配置ssh服务

$ vim /etc/ssh/sshd_config
# 设置PermitRootLogin=yes
# 设置PasswordAuthentication=yes
# 设置PubkeyAuthentication=yes

生成密钥对

$ ssh-keygen -t rsa

导入公钥

$ cat id_rsa.pub >> ~/.ssh/authorized_keys

注意.ssh文件夹700权限和文件.ssh/authorized_keys的600权限

重启sshd服务

$ systemctl restart sshd
克隆机器、配置ip、hostname、hosts

克隆2台机器作为compute[1,2],克隆的机器注意mac要不一样,否则会出现不能上网问题。

配置固定ip

$ vim /etc/sysconfig/network-scripts/ifcfg-ens33
# 修改BOOTPROTO=static
# 修改IPADDR=192.168.145.100
# 修改NETMASK=255.255.255.0
# 修改GATEWAY=192.168.145.2

配置hosts文件

$ vim /etc/hosts
# 增加 192.168.145.100 control
# 增加 192.168.145.101 compute1
# 增加 192.168.145.102 compute2

配置主机名

$ vim /etc/hostname
# 修改主机名

重启生效

$ reboot
<
  • 3
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
slurm-gpu集群搭建是一种用于创建高性能计算环境的解决方案,它能够有效地利用多个GPU来加速任务执行。以下是关于如何搭建slurm-gpu集群的简要步骤: 1. 购买所需硬件:首先,您需要购买足够数量的GPU、服务器和交换机来组成集群。确保GPU和服务器的型号和配置都兼容并且能满足您的计算需求。 2. 安装并配置操作系统:在每个服务器上安装您选择的操作系统,并确保操作系统和组件的版本兼容。建议选择一个常用的Linux发行版,如Ubuntu或CentOS。 3. 安装Slurm:使用包管理器或从源代码编译安装Slurm调度系统。Slurm是一个开源的高性能计算和作业调度系统,为集群提供了任务分配和管理功能。 4. 配置Slurm集群:编辑Slurm配置文件以设置集群的参数,例如节点名称、队列配置、资源限制等。确保每个节点都被正确地添加到Slurm的集群配置中。 5. 安装GPU驱动程序:为每个服务器上的GPU安装正确的驱动程序,并确保它们在操作系统中正确识别和配置。 6. 测试和优化:在完成集群配置后,进行一些基准测试,以确保GPU可以被正确地调用和使用。优化Slurm和GPU驱动程序的配置,以最大程度地提高集群的性能。 7. 添加用户和作业:为集群上的用户创建账户,并允许他们提交作业。根据需要,在Slurm配置用户权限和资源限制。 总结:通过购买适当的硬件,安装并配置操作系统、Slurm和GPU驱动程序,以及进行测试和优化,您可以成功地搭建一个slurm-gpu集群。此集群能够高效地利用多个GPU来加速计算任务的执行,为您提供一个强大的计算环境。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值