LSF_管理用户、主机和队列_1

LSF_管理用户、主机和队列

修改cshrc.lsf和profile.lsf配置文件使得用户可以使用集群。从集群中添加或者删除主机\队列。

  • 配置cshrc.lsf、profile.lsf配置文件使集群对用户可用
    确保lsf users在家目录的.cshrc或.profile配置文件的末尾包含cshrc.lsf或者profile.lsf,或者在使用LSF之前运行这两个文之一。
  • 添加主机到集群
    使用安装脚本lsfinstall来添加主机到集群。
  • 从集群中删除主机
    从LSF中删除主机包括关闭主机以防止在该主机上运行任何额外的作业,以及从lsf.cluster.cluster_name文件中删除对该主机的引用以及其他的配置文件。
  • 添加队列
    修改lsb.queues文件添加一个新队列的定义,添加队列并不会影响挂起和正在运行的作业。
  • 删除队列
    编辑lsb.queues删除队列的定义。

配置cshrc.lsf、profile.lsf实现集群对用户可用

作业相关

使用以下shell文件配置用户lsf环境相关的配置:

  • LSF_CONFDIR/cshrc/lsf
    对csh或tcsh shell使用这个文件
  • LSF_CONFDIR/profile.lsf
    对sh,ksh,bash使用这个文件

步骤

csh或者tcsh:
  • 添加cshrc.lsf到全局.cshrc文件末尾,对所有用户生效:
    1 复制cshrc.lsf内容到.cshrc文件。
    2 在文件末尾添加一个source命令到.cshrc文件末尾。例如,如果你的LSF_TOP目录在/usr/share/lsf/conf。添加如下的内容到.cshrc文件:
source /usr/share/lsf/conf/cshrc.lsf
sh、ksh、bash
  • 添加profile.lsf文件到全局.profile文件:
    1 复制profile.lsf文件内容到.profile文件。
    2 例如,如果LSF_TOP目录在/usr/share/lsf/conf,添加如下内容到.profile文件末尾:
. /usr/share/lsf/conf/profile.lsf

添加主机到集群

使用LSF安装脚本lsfinstall添加新的主机和主机类型到集群。

开始之前

确保你有主机该主机类型的LSF distrubution文件。比如,添加一个linux x86-64 kernel2.6和3.x系统到集群,取得文件lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z。
可在IBM Passport下载distribution文件。
可在LSF System Requirements查看支持的所有系统。

任务相关

添加主机到集群有以下主要步骤:
1 安装该主机类型的LSF binary 文件。
2 添加主机信息到lsf.cluster.cluster_name文件。
3 配置新主机。

步骤

  • 1 安装该主机类型的binary文件。
    使用lsfinstall目录添加新主机类型到集群,如果你已经有了该主机类型的distribution文件,你可以跳过这些步骤。

    • 登录root到任何一个有权限进入LSF安装脚本目录的主机。
    • 切换到安装脚本的目录路径。
      #cd /usr/share/lsf/cluster1/10.1/install
    • 编辑install.config文件指定你希望对新主机类型执行的操作。
      install_config相关信息
      lsfinstall命令相关信息
    • 执行./lsfinstall -f install.config命令
    • 按照After Installing LSF步骤来设置新主机。
  • 2 添加主机信息到lsf.cluster.cluster_name文件。

    • 以primary LSF administrator登录LSF管理主机。
    • 编辑LSF_CONFDIR/lsf.cluster.cluser_name文件,添加新主机的信息到HOST部分。
      • 添加主机名称。
        • 添加主机model或type。
          如果你输入!keyword在model和type列,运行在主机上的lim可以自动检测到主机型号。
          你可能希望使用默认的主机类型,并在拥有经验之后或者拥有更多信息之后再来修改。
      • 指定LSF server或者客户端在server列。
        • 1(one)作为server候选。
        • 0(zero)仅作为LSF 客户端 。
          默认情况下,主机被视为候选LSF server。
HOSTNAME  model  type      server  r1m  mem  RESOURCES  REXPRI
hosta     !      SUNSOL    1       1.0  4    ()         0
hostb     !      LINUX     0       1.0  4    ()         0
hostc     !      HPPA      1       1.0  4    ()         0
End Host
  • 保存文件LSF_CONFDIR/lsf.cluster.cluster_name。
  • 重新配置lim使得新主机在集群中可用。
% lsadmin reconfig
Checking configuration files ...
No errors found.
Do you really want to restart LIMs on all hosts? [y/n] y
Restart LIM on <hosta> ...... done
Restart LIM on <hostc> ...... done
Restart LIM on <hostd> ...... done

lsadmin reconfig命令检查配置错误。如果没有发现不可恢复的错误,将要求您确认要在所有主机上重新启动lim,并重新配置lim。如果发现不可恢复的错误,则退出重新配置。

  • 重新配置mbatchd
% badmin reconfig
Checking configuration files ...
No errors found.
Do you want to reconfigure? [y/n] y
Reconfiguration initiated

badmin reconfig命令检查配置错误。如果没有发现不可恢复的错误,将要求您确认重新配置。如果发现不可恢复的错误,则退出重新配置。

  1. 3 (可选)使用hostsetup命令设置新主机。

    • 以root登录任何可以访问LSF安装脚本路径的主机。
    • 切换到该目录下
      #cd /usr/share/lsf/cluster1/10.1/install
    • 运行hostsetup命令设置新主机。
      #./hostsetup --top="/usr/share/lsf/lsf_62" --boot=“y”
      hostsetup相关信息
    • 在新主机上启动LSF。

    bctrld start lim

#bctrld start res
#bctrld start sbd
  1. 运行bhosts 和lshosts来验证更改。

从集群中移除主机

从集群中删除主机包括关闭主机防止作业运行在上面,同时从lsf.cluster.cluster_name文件中去掉对主机的引用。

关于这个任务

注意:禁止删除集群管理节点。如果你想更改默认的管理主机,更改lsf.cluster.cluster_name文件来重新指定默认的集群管理节点,然后再删除原来的管理主机。

步骤

  1. 以root用户登录LSF主机。
  2. 运行badmin hclose命令来关闭主机。
    关闭主机将阻止作业被发送到主机,并允许运行的作业完成。
  3. 手动关闭lsf相关的守护进程。
  4. 从LSF_CONFDIR/lsf.cluster.cluster_name文件删除该主机的引用。
  5. 删除其他对该主机的引用,如果适用,从以下配置文件:
    LSF_CONFDIR/lsf.shared
    LSF_CONFDIR/cluster_name/configdir/lsb.hosts LSF_CONFDIR/cluster_name/configdir/sb.queues
    LSF_CONFDIR/cluster_name/configdir/lsb.resources
  6. 注销要删除的主机,并以root或主要LSF管理员身份登录到集群中的任何其他主机.
  7. 运行lsadmin reconfig命令来重新配置reconfigure LIM。
% lsadmin reconfig
Checking configuration files ...
No errors found.
Do you really want to restart LIMs on all hosts? [y/n] y
Restart LIM on <hosta> ...... done
Restart LIM on <hostc> ...... done

lsadmin reconfig检查配置错误。 如果没有错误发现,需要你进行确认是否重启所有主机的lim并且重新配置lim。如果不可恢复的错误被发现,重新配置程序将会退出。

  1. 运行badmin mbdrestart命令来重启mbatchd。
% badmin reconfig
Checking configuration files ...
No errors found.
Do you want to reconfigure? [y/n] y
Reconfiguration initiated

badmin mbdrestart命令检查配置错误
如果没有发现不可恢复的错误,将要求您确认重新配置。如果发现不可恢复的错误,则退出重新配置。

  1. 如果将LSF守护进程配置为在系统启动时自动启动,则从主机的系统启动文件中删除LSF节。
  2. 如果主机的任何用户使用lstcsh shell作为他们的登录shell,请将他们的登录shell更改为tcsh或csh。从/etc/shell文件中删除lstcsh。
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值