LSF_管理用户、主机和队列
修改cshrc.lsf和profile.lsf配置文件使得用户可以使用集群。从集群中添加或者删除主机\队列。
- 配置cshrc.lsf、profile.lsf配置文件使集群对用户可用
确保lsf users在家目录的.cshrc或.profile配置文件的末尾包含cshrc.lsf或者profile.lsf,或者在使用LSF之前运行这两个文之一。 - 添加主机到集群
使用安装脚本lsfinstall来添加主机到集群。 - 从集群中删除主机
从LSF中删除主机包括关闭主机以防止在该主机上运行任何额外的作业,以及从lsf.cluster.cluster_name文件中删除对该主机的引用以及其他的配置文件。 - 添加队列
修改lsb.queues文件添加一个新队列的定义,添加队列并不会影响挂起和正在运行的作业。 - 删除队列
编辑lsb.queues删除队列的定义。
配置cshrc.lsf、profile.lsf实现集群对用户可用
作业相关
使用以下shell文件配置用户lsf环境相关的配置:
- LSF_CONFDIR/cshrc/lsf
对csh或tcsh shell使用这个文件 - LSF_CONFDIR/profile.lsf
对sh,ksh,bash使用这个文件
步骤
csh或者tcsh:
- 添加cshrc.lsf到全局.cshrc文件末尾,对所有用户生效:
1 复制cshrc.lsf内容到.cshrc文件。
2 在文件末尾添加一个source命令到.cshrc文件末尾。例如,如果你的LSF_TOP目录在/usr/share/lsf/conf。添加如下的内容到.cshrc文件:
source /usr/share/lsf/conf/cshrc.lsf
sh、ksh、bash
- 添加profile.lsf文件到全局.profile文件:
1 复制profile.lsf文件内容到.profile文件。
2 例如,如果LSF_TOP目录在/usr/share/lsf/conf,添加如下内容到.profile文件末尾:
. /usr/share/lsf/conf/profile.lsf
添加主机到集群
使用LSF安装脚本lsfinstall添加新的主机和主机类型到集群。
开始之前
确保你有主机该主机类型的LSF distrubution文件。比如,添加一个linux x86-64 kernel2.6和3.x系统到集群,取得文件lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z。
可在IBM Passport下载distribution文件。
可在LSF System Requirements查看支持的所有系统。
任务相关
添加主机到集群有以下主要步骤:
1 安装该主机类型的LSF binary 文件。
2 添加主机信息到lsf.cluster.cluster_name文件。
3 配置新主机。
步骤
-
1 安装该主机类型的binary文件。
使用lsfinstall目录添加新主机类型到集群,如果你已经有了该主机类型的distribution文件,你可以跳过这些步骤。- 登录root到任何一个有权限进入LSF安装脚本目录的主机。
- 切换到安装脚本的目录路径。
#cd /usr/share/lsf/cluster1/10.1/install - 编辑install.config文件指定你希望对新主机类型执行的操作。
install_config相关信息
lsfinstall命令相关信息 - 执行./lsfinstall -f install.config命令
- 按照After Installing LSF步骤来设置新主机。
-
2 添加主机信息到lsf.cluster.cluster_name文件。
- 以primary LSF administrator登录LSF管理主机。
- 编辑LSF_CONFDIR/lsf.cluster.cluser_name文件,添加新主机的信息到HOST部分。
- 添加主机名称。
- 添加主机model或type。
如果你输入!keyword在model和type列,运行在主机上的lim可以自动检测到主机型号。
你可能希望使用默认的主机类型,并在拥有经验之后或者拥有更多信息之后再来修改。
- 添加主机model或type。
- 指定LSF server或者客户端在server列。
- 1(one)作为server候选。
- 0(zero)仅作为LSF 客户端 。
默认情况下,主机被视为候选LSF server。
- 添加主机名称。
HOSTNAME model type server r1m mem RESOURCES REXPRI
hosta ! SUNSOL 1 1.0 4 () 0
hostb ! LINUX 0 1.0 4 () 0
hostc ! HPPA 1 1.0 4 () 0
End Host
- 保存文件LSF_CONFDIR/lsf.cluster.cluster_name。
- 重新配置lim使得新主机在集群中可用。
% lsadmin reconfig
Checking configuration files ...
No errors found.
Do you really want to restart LIMs on all hosts? [y/n] y
Restart LIM on <hosta> ...... done
Restart LIM on <hostc> ...... done
Restart LIM on <hostd> ...... done
lsadmin reconfig命令检查配置错误。如果没有发现不可恢复的错误,将要求您确认要在所有主机上重新启动lim,并重新配置lim。如果发现不可恢复的错误,则退出重新配置。
- 重新配置mbatchd
% badmin reconfig
Checking configuration files ...
No errors found.
Do you want to reconfigure? [y/n] y
Reconfiguration initiated
badmin reconfig命令检查配置错误。如果没有发现不可恢复的错误,将要求您确认重新配置。如果发现不可恢复的错误,则退出重新配置。
-
3 (可选)使用hostsetup命令设置新主机。
- 以root登录任何可以访问LSF安装脚本路径的主机。
- 切换到该目录下
#cd /usr/share/lsf/cluster1/10.1/install - 运行hostsetup命令设置新主机。
#./hostsetup --top="/usr/share/lsf/lsf_62" --boot=“y”
hostsetup相关信息 - 在新主机上启动LSF。
bctrld start lim
#bctrld start res
#bctrld start sbd
- 运行bhosts 和lshosts来验证更改。
从集群中移除主机
从集群中删除主机包括关闭主机防止作业运行在上面,同时从lsf.cluster.cluster_name文件中去掉对主机的引用。
关于这个任务
注意:禁止删除集群管理节点。如果你想更改默认的管理主机,更改lsf.cluster.cluster_name文件来重新指定默认的集群管理节点,然后再删除原来的管理主机。
步骤
- 以root用户登录LSF主机。
- 运行badmin hclose命令来关闭主机。
关闭主机将阻止作业被发送到主机,并允许运行的作业完成。 - 手动关闭lsf相关的守护进程。
- 从LSF_CONFDIR/lsf.cluster.cluster_name文件删除该主机的引用。
- 删除其他对该主机的引用,如果适用,从以下配置文件:
LSF_CONFDIR/lsf.shared
LSF_CONFDIR/cluster_name/configdir/lsb.hosts LSF_CONFDIR/cluster_name/configdir/sb.queues
LSF_CONFDIR/cluster_name/configdir/lsb.resources - 注销要删除的主机,并以root或主要LSF管理员身份登录到集群中的任何其他主机.
- 运行lsadmin reconfig命令来重新配置reconfigure LIM。
% lsadmin reconfig
Checking configuration files ...
No errors found.
Do you really want to restart LIMs on all hosts? [y/n] y
Restart LIM on <hosta> ...... done
Restart LIM on <hostc> ...... done
lsadmin reconfig检查配置错误。 如果没有错误发现,需要你进行确认是否重启所有主机的lim并且重新配置lim。如果不可恢复的错误被发现,重新配置程序将会退出。
- 运行badmin mbdrestart命令来重启mbatchd。
% badmin reconfig
Checking configuration files ...
No errors found.
Do you want to reconfigure? [y/n] y
Reconfiguration initiated
badmin mbdrestart命令检查配置错误
如果没有发现不可恢复的错误,将要求您确认重新配置。如果发现不可恢复的错误,则退出重新配置。
- 如果将LSF守护进程配置为在系统启动时自动启动,则从主机的系统启动文件中删除LSF节。
- 如果主机的任何用户使用lstcsh shell作为他们的登录shell,请将他们的登录shell更改为tcsh或csh。从/etc/shell文件中删除lstcsh。