一、什么是LSF?
LSF(Load Sharing Facility)是IBM旗下的一款分布式集群管理系统软件,负责计算资源的管理和批处理作业的调度。常用的分布式集群管理系统软件有PBS、SLURM、LSF。
二、安装环境(虚拟机)
主机名 | IP地址 | 操作系统 | 类型 |
admin(管理节点) | 192.168.10.10 | redhat8.3 | 虚拟机 |
node1(计算节点) | 192.168.10.11 | redhat8.3 | 虚拟机 |
[root@admin ~]# ssh-key
[root@admin ~]# ssh-copy-id -i root@192.168.10.10
[root@admin ~]# ssh-copy-id -i root@192.168.10.11
[root@admin ~]# vim /etc/hosts
[root@admin ~]# scp /etc/hosts root@192.168.10.11:/etc/hosts
五、配置共享存储
[root@admin ~]# rpm -ivh nfs-utils-2.3.3-35.el8.x86_64.rpm
warning: nfs-utils-2.3.3-35.el8.x86_64.rpm: Header V3 RSA/SHA256 Signature, key ID fd431d51: NOKEY
Verifying... ################################# [100%]
Preparing... ################################# [100%]
package nfs-utils-1:2.3.3-35.el8.x86_64 is already installed
[root@admin ~]# cat /etc/exports
/data 192.168.10.0/24(rw,no_root_squash)
[root@admin ~]# systemctl restart nfs-server
[root@node1 ~]# mount -t nfs 192.168.10.10:/data /data/
[root@admin ~]# mkdir -p /data/software
[root@admin ~]# mkdir -p /data/packages
[root@admin ~]# mv lsfsce10.2.0.6-x86_64.tar.gz /data/packages/
[root@admin ~]# cd /data/packages/
[root@admin packages]# ls
lsfsce10.2.0.6-x86_64.tar.gz
[root@admin packages]# tar -xf lsfsce10.2.0.6-x86_64.tar.gz
[root@admin packages]# ls
lsfsce10.2.0.6-x86_64 lsfsce10.2.0.6-x86_64.tar.gz
[root@admin packages]# cd lsfsce10.2.0.6-x86_64/
[root@admin lsfsce10.2.0.6-x86_64]# ls
lsf pac pmpi
[root@admin lsfsce10.2.0.6-x86_64]# cd lsf/
[root@admin lsf]# ls
lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z lsf10.1_lsfinstall_linux_x86_64.tar.Z
[root@admin lsf]# tar -xf lsf10.1_lsfinstall_linux_x86_64.tar.Z lsf10.1_lsfinstall/
六、修改配置文件
[root@admin lsf10.1_lsfinstall]# cat install.config | grep -v "#"
LSF_TOP="/data/software/lsf"
LSF_ADMINS="huchh"
LSF_CLUSTER_NAME="lsf_cluster"
LSF_MASTER_LIST="admin"
LSF_TARDIR="/data/packages/lsfsce10.2.0.6-x86_64/lsf"
CONFIGURATION_TEMPLATE="DEFAULT"
LSF_ADD_SERVERS="node1"
LSF_ADD_CLIENTS="admin node1"
七、安装LSF
八、修改LSF配置文件
LSF_RSH="ssh"
九、加载LSF环境变量
[root@admin ~]# /data/software/lsf/10.1/install/hostsetup --top="/data/software/lsf" --boot="y"
十一、管理节点启动集群
十二、检查节点状态
[root@admin ~]# lshosts
十三、报错
解决办法:
[root@admin ~]# rpm -ivh glibc-2.28-127.el8.x86_64.rpm
[root@admin ~]# rpm -ivh libnsl-2.28-127.el8.x86_64.rpm