LSF(Load Sharing Facility)是IBM开发的分布式集群管理系统,主要用于高性能计算环境中的资源管理和作业调度12。以下是搭建LSF集群的关键步骤:
- 环境准备
- 准备至少4台CentOS 7.6虚拟机(1主节点+3计算节点)
- 关闭selinux和防火墙:
bashCopy Code
sed -i "s/SELINUX=enforcing/SELINUX=disabled/g" /etc/selinux/config
systemctl stop firewalld && systemctl disable firewalld
- 配置主机名解析(所有节点需同步/etc/hosts文件)3
- 用户与权限配置
- 创建专用管理用户:
bashCopy Code
useradd -m lsfadmin
- 配置SSH免密登录(主节点到所有计算节点)3
- 共享目录设置
- 主节点创建共享目录并配置NFS:
bashCopy Code
mkdir /opt/lsf
echo "/opt/lsf 10.4.7.140(rw,async,no_root_squash)" >> /etc/exports
- 计算节点挂载共享目录3
- 安装配置
- 创建安装配置文件install.config:
configCopy Code
LSF_TOP="/data/IBM/lsf"
LSF_ADMINS="lsfadmin"
LSF_CLUSTER_NAME="H01"
LSF_MASTER_LIST="master01"
LSF_TARDIR="/data/IBM/lsf_distrib/"
- 执行安装命令:
bashCopy Code
./lsfinstall -f install.config
```:ml-citation{ref="4" data="citationList"}
- 服务启动
- 初始化LSF环境:
bashCopy Code
source /etc/profile.lsf
- 启动集群服务:
bashCopy Code
/opt/lsf/bin/lsb_startup
```:ml-citation{ref="8" data="citationList"}
关键概念说明:
- Cluster:由主节点(master)、服务节点(server)、客户端节点(client)和执行节点(execution host)组成1
- Queue:作业队列可跨多个计算节点,支持动态资源分配1
- Job Slot:与CPU核心数绑定的任务执行单元1