前置条件:
由于是搭建服务器集群,需要同步配置文件,建议将LSF安装到NFS共享的目录上,然后集群中所以机器都挂载相同的NFS目录。
1、准备配置文件/LSF/lsf10.1_lsfinstall/install.config
LSF_TOP="/opt/tools/lsf" //安装路径(nfs挂载路径)
LSF_ADMINS="lsfadmin" //lsf管理员(要先创建账号,每台机器都要创建并保证uid相同,建议ldap认证)
LSF_CLUSTER_NAME="hpctest" //集群名称
LSF_MASTER_LIST="hpctest01" //master节点
LSF_ENTITLEMENT_FILE="/opt/tools/lsf_std_entitlement.dat" //license文件路径
2、执行安装脚本
./lsfinstall -f install.config
3、主机启动:
cd /opt/tools/lsf/10.1/install
./hostsetup --top="/opt/tools/lsf" --boot="y"
4、启动服务:
systemctl start lsfd
systemctl enable lsfd
5、source环境变量
source /opt/tools/lsf/conf/profile.lsf
6、验证
[root@hpctest01 ~]# bhosts
HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV
hpctest01 ok - 1 0 0 0 0 0
7、增加节点(在需要增加的节点上操作):
在/opt/tools/lsf/10.1/install/install.config 文件中增加节点主机名:
LSF_ADD_SERVERS="hoste hostf"
执行:./lsfinstall -f install.config
重启服务
8、其他命令操作:
badmin hclose hpctest01 ##关闭lsf计算节点,关闭后任务不能提交到改节点上
lsb.hosts ##配置文件,安装路径/conf/lsbatch/集群名称/configdir(主机job数量限制)
修改lsf.*配置文件后lsadmin reconfig
修改lsb.*配置文件后badmin reconfig