LSF安装部署

前言

目前,市面上主流的HPC调度器分为LSF、SGE、Slurm、SGE四大类型,不同行业根据自身场景和不同调度器对应用支持力度的不同,往往会有不同的偏好,在芯片设计公司中最常用的是LSF

LSF(Load Sharing Facility)是IBM旗下的一款分布式集群管理系统软件,负责计算资源的管理和批处理作业的调度。它给用户提供统一的集群资源访问接口,让用户透明地访问整个集群资源。同时提供了丰富的功能和可定制的策略。LSF 具有良好的可伸缩性和高可用性,支持几乎所有的主流操作系统。它通常是高性能计算环境中不可或缺的基础软件。 

下文将简单介绍在实验环境中安装部署LSF的过程,仅供参考

一、准备工作

1、准备四台虚拟机,并部署好centos7.6

主机名IP地址角色
lsf-master192.168.0.81管理节点&计算节点
lsf-node1192.168.0.82计算节点
lsf-node2192.168.0.83计算节点
nfs192.168.0.84共享存储

2、配置主机名和名称解析

#hostnamectl set-hostname lsf-master

#hostnamectl set-hostname lsf-node1

#hostnamectl set-hostname lsf-node2

#hostnamectl set-hostname nfs

3、关闭selinux,firewalled

#sed -i "s/SELINUX=enforcing/SELINUX=disabled/g" /etc/selinux/config

#systemctl stop firewalld

#systemctl disable firewalld

4、创建用户

#useradd -m lsfadmin

5、设置免密登录

#ssh-keygen

#ssh-copy-id root@192.168.0.82

#ssh-copy-id root@192.168.0.83

#ssh-copy-id root@192.168.0.84

6、nfs共享存储搭建(略)

7、挂载共享存储

#mkdir -p /opt/lsf

#vi /etc/exports

#exportfs -r

#systemctl stop iptables(如已关闭iptables则不需要执行)

#mkdir -p /opt/lsf

#echo "nfs:/opt/lsf /opt/lsf nfs defaults 0 0">>/etc/fstab

#mount -a

二、安装LSF

1、上传LSF安装包到lsf-master节点

2、设置安装目录(建议设置为空的安装目录,否则目录中的文件会被覆盖掉)

#mkdir /opt/lsf/install

3、将“lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z”和“llsf10.1_lsfinstall_linux_x86_64.tar”“lsf_std_entitlement.dat”移动到/opt/lsf共享目录下

4、解压lsf10.1_lsfinstall_linux_x86_64.tar,但是不要解压lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z

 # tar -xvf lsf10.1_lsfinstall_linux_x86_64.tar

其中 install.config 为安装配置文件,设置对应参数

#cd /opt/lsf/lsf10.1_lsfinstall

#vi install.config

LSF_TOP="/opt/lsf/install"

LSF_ADMINS="lsfadmin"

LSF_CLUSTER_NAME="cluster1"

LSF_MASTER_LIST="lsf-master"

LSF_ENTITLEMENT_FILE="/opt/lsf/lsf_std_entitlement.dat"

CONFIGURATION_TEMPLATE ="HIGH_THROUGHPUT "

LSF_TARDIR="/opt/lsf" LSF_ADD_SERVERS="lsf-node1 lsf-node2"

【配置文件参数解释】

LSF_TOP : 设置安装路径。

LSF_ADMINS : 设置管理员账号,当前设置为我自己的账号,但是企业中建议创建一个公用的管理员账号 lsfadmin。

LSF_CLUSTER_NAME : 集群名称。

LSF_MASTER_LIST :master 机器列表,如果有多台机器,建议至少设置两台 master,作为冗余备份。

LSF_TARDIR : 安装文件解压缩路径。( 需要填写“lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z”和“llsf10.1_lsfinstall_linux_x86_64.tar”所在的目录,否则会报错No valid LSF distribution file(s) (.tar.Z or .tar.gz) is found in "/opt/lsf/tardir".)

CONFIGURATION_TEMPLATE :配置模式,如果是 IC 应用场景,建议设置为 HIGH_THROUGHPUT 高性能模式。

LSF_ADD_SERVERS :添加计算机节点机器,也可以安装后配置。

LSF_ADD_CLIENTS :添加客户机(投递机)节点,也可以安装后配置。

5、安装ed

#yum install ed(如未事先安装,在下一步执行安装配置文件时会报错Cannot find UNIX command " ed".)

6、执行./lsfinstall -f install.config 来安装 lsf

 输入1,继续

输入1,继续

在安装完成后会生成一个lsf_quick_admin.html和lsf_getting_started.html网页,会记录LSF集群的一些主要信息以及常用命令和使用方法

7、在lsf-master、lsf-node1、lsf-node2中自动添加环境变量

#echo ". /opt/lsf/install/conf/profile.lsf">>/etc/profile

8、安装完默认集群间通过rsh通信,修改为ssh通信

#echo "LSF_RSH=ssh" >> /opt/lsf/install/conf/lsf.conf

在/opt/lsf/install/conf/目录下

#source profile.lsf

9、运行lsfstartup命令启动集群:

 10、通过以下命令检查集群情况

#bsub             命令提交
#bqueues        队列查看
#bhosts          节点查看
#bjobs            作业查看

【问题记录】

lsf-node1和lsf-node2上的iptables未关闭,在/opt/lsf/install/log中查看报错日志:

chanServSocketExt_(). A socket operation has failed on the configured UDP port <7869> on host <lsf-node1>. Reason: <Address already in use>. Fatal error. Either change the port number in lsf.conf (LSF_LIM_PORT) or terminate the other process that is bound to the port.

 在lsf-node1和lsf-node2中关闭iptables,

 重新执行lsfstartup

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值