管理节点(Master)
mbatchd
管理批处理守护进程,运行在管理主机上。负责系统中作业的总体状态。接收作业提交和信息查询请求。管理队列中保存的作业。将作业分派到mbschd确定的主机上。
master lim
LIM运行在管理主机上。从集群中主机上运行的LIMs接收负载信息。将负载信息转发给mbatchd,后者将该信息转发给mbschd以支持调度决策。如果管理主机LIM不可用,管理候选主机上的LIM将自动接管。
pim
进程信息管理器(PIM)运行在每个服务器主机上。由LIM启动,它定期检查PIM并在PIM死亡时重新启动PIM。收集主机上运行的作业进程信息,如作业所使用的CPU、内存等,上报给sbatchd。
res
远程执行服务器(RES)运行在每个服务器主机上。接受远程执行请求,以提供清晰和安全的作业和任务远程执行。
sbatchd
运行在每一个主机上,包括管理主机,接收mbatchd运行任务的请求,并管理本地运行的任务,负责执行本地策略和维护主机上的作业状态。sbatchd会为每一个任务创建一个sbatchd的子进程,子进程运行在res的实例中,来创建每一个任务的执行环境,当任务完成之后子进程则退出。
mbschd
管理批调度程序守护程序,运行在管理主机上。与mbatchd一起工作。根据工作要求、策略和资源可用性做出调度决策并向mbatchd发送调度决策,mbatchd根据调度决策进行作业的分派。
Parent LiM
运行在管理主机的lim,从各个主机上运行的lim出收集各个主机的负载信息,并将负载信息转发给mbatchd,mabatchd会将这些信息转发给mbschd来调配调度策略,如果管理主机上的lim变成不可用,那么候选管理主机上的lim将会自动接替此lim的位置。
计算节点(Compute Hosts)
sbatchd
运行在每一个主机上,包括管理主机,接收mbatchd运行任务的请求,并管理本地运行的任务,负责执行本地策略和维护主机上的作业状态。sbatchd会为每一个任务创建一个sbatchd的子进程,子进程运行在res的实例中,来创建每一个任务的执行环境,当任务完成之后子进程则退出。
res
远程执行服务器(RES)运行在每个服务器主机上。接受远程执行请求,以提供清晰和安全的作业和任务远程执行。
lim
加载信息管理器(LIM)运行在每个服务器主机上。收集主机负载和配置信息,转发给管理主机上运行的管理主机LIM。报告lsload和显示的信息
pim
进程信息管理器(PIM)运行在每个服务器主机上。由LIM启动,它定期检查PIM并在PIM死亡时重新启动PIM。收集主机上运行的作业进程信息,如作业所使用的CPU、内存>
等,上报给sbatchd。
ELIM: External LIM (ELIM)是一个站点可定义的可执行文件,用于收集和跟踪自定义动态负载索引。ELIM可以是shell脚本或已编译的二进制程序,它返回您定义的动态资源的值。ELIM可执行文件必须命名为ELIM.anthing,并且位于LSF_SERVERDIR中定义的路径中。