LSF 安装目录,快速参考 LSF 命令、守护程序、配置文件、日志文件和重要集群配置参数

样本 UNIX 和 Linux 安装目录

样本 UNIX 和 Linux 安装目录

 

守护程序错误日志文件

守护程序错误日志文件存储在 LSF_LOGDIR 在 lsf.conf 文件中定义的目录中。

LSF 基本系统守护程序日志文件LSF 批处理系统守护程序日志文件
pim.log.host_namembatchd.log.host_name
mbatchd.log.host_namesbatchd.log.host_name
lim.log.host_namembschd.log.host_name

如果在 ego.conf 文件中定义了 EGO_LOGDIR 参数,那么 lim.log.host_name 文件将存储在 EGO_LOGDIR 参数定义的目录中。

配置文件

lsf.conf, lsf.shared和 lsf.cluster.cluster_name 文件位于 lsf.conf 文件中 LSF_CONFDIR 参数指定的目录中。

lsb.params, lsb.queues, lsb.modules和 lsb.resources 文件位于 LSB_CONFDIR/cluster_name/configdir/ 目录中。

文件

描述

install.configLSF 安装和配置的选项
lsf.conf描述集群配置和操作的通用环境配置文件
lsf.shared所有集群共享的定义文件。 用于定义集群名称,主机类型,主机模型和站点定义的资源
lsf.cluster.cluster_name用于定义站点定义的共享资源的主机,管理员和位置的集群配置文件
lsb.applications定义应用程序概要文件以定义相同类型的作业的公共参数
lsb.params配置 LSF 批处理参数
lsb.queues批处理队列配置文件
lsb.resources配置资源分配限制,导出和资源使用限制
lsb.serviceclasses将 LSF 集群中的服务级别协议 (SLA) 定义为服务类,用于定义 SLA 的属性
lsb.users配置用户组,用户和用户组的分层公平共享以及用户和用户组的作业槽限制

lsf.conf 文件中的集群配置参数


参数

描述

UNIX 缺省值

LSF_BINDIR包含 LSF 用户命令的目录,这些命令由同一类型的所有主机共享LSF_TOP/version/OStype/bin
LSF_CONFDIR所有 LSF 配置文件的目录LSF_TOP/conf
LSF_ENVDIR包含 lsf.conf 文件的目录。 必须由 root 用户拥有。/etc (如果未定义 LSF_CONFDIR )
LSF_INCLUDEDIR包含 LSF API 头文件 lsf.h 和 lsbatch.h 的目录LSF_TOP/version/include
LSF_LIBDIRLSF 库,由同一类型的所有主机共享LSF_TOP/version/OStype/lib
LSF_LOGDIR(可选) LSF 守护程序日志的目录。 必须由 root 用户拥有。/tmp
LSF_LOG_MASK来自 LSF 命令的错误消息的日志记录级别LOG_WARNING
LSF_MANDIR包含 LSF 联机帮助页的目录LSF_TOP/version/man
LSF_MISC样本 C 程序和 shell 脚本以及外部 LIM 的模板 (elim)LSF_TOP/version/misc
LSF_SERVERDIR所有服务器二进制文件和 shell 脚本以及由 LSF 守护程序启动的外部可执行文件的目录必须由 root 用户拥有,并且由同一类型的所有主机共享LSF_TOP/version/OStype/etc
LSF_TOP顶级安装目录。 LSF_TOP 的路径必须共享,并且可供集群中的所有主机访问。 它不能是根目录 (/)。未定义

安装所需

LSB_CONFDIRLSF 批处理配置目录的目录,包含用户和主机列表,操作参数和批处理队列LSF_CONFDIR/lsbatch
LSF_LIVE_CONFDIRbconf 命令写入的 LSF 实时重新配置目录的目录。LSB_SHAREDIR/cluster_name/live_confdir
LSF_SHAREDIR每个集群的 LSF 批处理作业历史记录和记帐日志文件的目录必须由主 LSF 管理员拥有LSF_TOP/work
LSF_LIM_PORT用于与 lim 守护程序通信的 TCP 服务端口7879
LSF_RES_PORT用于与 res 守护程序通信的 TCP 服务端口6878
LSF_MBD_PORT用于与 mbatchd 守护程序通信的 TCP 服务端口6881
LSF_SBD_PORT用于与 sbatchd 守护程序通信的 TCP 服务端口6882

 

管理和记帐命令

只有 LSF 管理员和 root 用户才能使用这些命令。


命令

描述

lsadminLSF 管理员工具,用于控制 LSF 集群中 LIM 和 RES 守护程序的操作, lsadmin help 显示所有子命令
lsfinstall使用 install.config 输入文件安装 LSF
lsfrestart在本地集群中的所有主机上重新启动 LSF 守护程序
lsfshutdown关闭本地集群中所有主机上的 LSF 守护程序
lsfstartup在本地集群中的所有主机上启动 LSF 守护程序
badminLSF 用于控制 LSF 批处理系统 (sbatchd, mbatchd,主机和队列) 操作的管理工具 badmin 帮助显示所有子命令
bconf更改活动内存中的 LSF 配置

守护程序


守护程序名称

描述

lim装入信息管理器 (LIM): 收集有关集群中所有服务器主机的装入和资源信息,并通过 LSLIB 向应用程序提供主机选择服务。 LIM 维护有关静态系统资源和动态负载索引的信息
mbatchd管理 批处理守护程序 (MBD): 接受并保存所有批处理作业。 MBD 通过联系 管理 主机 LIM 定期检查所有服务器主机上的装入索引。
mbschd管理 批处理调度程序守护程序: 执行 LSF 的调度功能,并将作业调度决策发送至 MBD 以进行分派。 在 LSF 管理 主机上运行
sbatchd服务器 批处理守护程序 (SBD): 接受来自 MBD 的作业执行请求,并监视作业进度。 控制作业执行,实施批处理策略,向 MBD 报告作业状态以及启动 MBD。
pimProcess Information Manager (PIM): 监视已提交作业在运行时使用的资源。 PIM 用于实施资源限制和负载阈值,以及用于公平共享调度
res远程执行服务器 (RES): 接受来自所有负载共享应用程序的远程执行请求,并处理远程主机上用于负载共享进程的 I/O。

用户命令

查看有关集群的信息。


命令

描述

bhosts显示主机及其静态和动态资源
blimits显示有关正在运行的作业的资源分配限制的信息
bparams显示有关可调批处理系统参数的信息
bqueues显示有关批处理队列的信息
busers显示有关用户和用户组的信息
lshosts显示主机及其静态资源信息
lsid显示当前 LSF 版本号,集群名称和 管理 主机名
lsinfo显示负载共享配置信息
lsload显示主机的动态装入索引

监视作业和任务。


命令

描述

bacct报告已完成 LSF 个作业的记帐统计信息
bapp显示有关附加到应用程序概要文件的作业的信息
bhist显示有关作业的历史信息
bjobs显示有关作业的信息
bpeek显示未完成的作业的标准输出和 stderr
bsla显示有关面向目标的服务级别协议调度的服务类配置的信息
bstatus读取或设置外部作业状态消息和数据文件

提交和控制作业。


命令

描述

bbot相对于队列中的最后一个作业移动暂挂作业
bchkpnt对可设置检查点的作业设置检查点
bkill向作业发送信号
bmig迁移可检查点或可重新运行的作业
bmod修改作业提交选项
brequeue终止作业并重新排队
bresize释放插槽并取消暂挂的作业调整大小分配请求
brestart重新启动检查点作业
bresume恢复已暂挂的作业
bstop暂挂作业
bsub提交作业
bswitch将未完成的作业从一个队列移至另一个队列
btop相对于队列中的第一个作业移动暂挂作业

bsub 命令

bsub [options] 命令[arguments] 命令的所选选项


选项

描述

-ar指定作业可自动调整大小
-H保留提交时处于 PSUSP 状态的作业
-I|-Ip|-Is提交批处理交互式作业。 -Ip 创建伪终端。 -Is 以 shell 方式创建伪终端。
-K提交作业并等待作业完成
-r使作业可重新运行
-x互斥执行
-app 应用程序概要文件名称将作业提交到指定的应用程序概要文件
-b 开始时间以 [[month:]day:]:minute 格式在指定日期和时间上或之后分派作业
-C core_limit设置属于此作业的所有进程的每个进程 (软) 核心文件大小限制 (KB)
-c cpu_time[/host_name | /host_model]限制作业可以使用的总 CPU 时间。 CPU 时间格式为 [hour:]minutes
-cwd "current_working_directory"指定作业的当前工作目录

-D 数据限制

设置属于作业的每个进程的每个进程 (软) 数据段大小限制 (KB)

-E "pre_exec_command [自变量]"在作业运行之前在执行主机上运行指定的 pre-exec 命令
-Ep "post_exec_command [自变量]"在作业完成后在执行主机上运行指定的 post-exec 命令
-e 错误文件将标准错误输出附加到文件
-eo 错误文件将作业的标准错误输出覆盖到指定文件
-F 文件限制为属于作业的每个进程设置每个进程 (软) 文件大小限制 (KB)
-f "local_file op[remote_file]" ...在本地 (提交) 主机和远程 (执行) 主机之间复制文件。 奥普 is one of >, <, <<, ><, <>
-i input_file | -is 输入文件从指定文件获取作业的标准输入
-J "job_name[index_list]%job_slot_limit"将指定的名称分配给作业。 作业数组 index_list 的格式为 start[-end[:step]] ,%job_slot_limit 是可以同时运行的最大作业数。
-k "chkpnt_dir [chkpnt_period] [method=method_name]"使作业检查点可执行,并指定检查点目录,周期 (以分钟为单位) 和方法
-M 内存限制设置每个进程 (软) 内存限制 (KB)
-m "host_name [@cluster_name] [[!] | + [pref_level]] | host_group[[!] | + [pref_level]] | compute_unit[[!] | + [pref_level]] ..."在其中一个指定主机上运行作业。 主机或组的名称后面的加号 (+) 指示首选项。 (可选) 正整数指示首选项级别。 数字越大,表示首选度越高。
-n min_proc[,max_proc]指定并行作业所需的最小和最大处理器数
-o 输出文件将标准输出附加到文件
-oo 输出文件将作业的标准输出覆盖到指定的文件
-p 进程限制限制整个作业的进程数
-q "queue_name ..."将作业提交到其中一个指定队列
-R "res_req" [-R "res_req" ...]指定主机资源需求
-S stack_limit为属于作业的每个进程设置每个进程 (软) 堆栈段大小限制 (KB)
-sla 服务类名指定要在其中运行作业的服务类
-T 线程限制设置整个作业的并发线程数限制
-t term_time以 [[month:]day:]hour:minute 格式指定作业终止截止期限
-v swap_limit设置整个作业的总进程虚拟内存限制 (KB)
-W run_time[/host_name |/host_model]以 [hour:]minute 格式设置作业的运行时限制
-h将命令用法打印到 stderr 并退出
-V将 LSF 发行版打印到 stderr 并退出

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值