IBM Spectrum LSF 简介
IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 软件是业界领先的企业级软件。 LSF 在现有异构 IT 资源之间分配工作,以创建共享,可扩展且容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 均衡负载和分配资源,并提供对这些资源的访问权。
LSF 提供了一个资源管理框架,用于满足您的作业需求,查找运行该作业的最佳资源,并监视其进度。 作业始终根据主机装入和站点策略运行。
集群
一组运行 LSF 的计算机 (主机) ,它们作为单个单元一起工作,将计算能力,工作负载和资源组合在一起。 集群为计算资源网络提供单系统映像。
可以通过多种方式将主机分组到集群中。 集群可以包含:
- 单个管理组中的所有主机
- 子网上的所有主机
主机
集群中的主机执行不同的功能。
-
管理主机
充当集群整体协调程序的 LSF 服务器主机,执行所有作业调度和分派。 -
服务器主机
提交和运行作业的主机。 -
客户机主机
仅提交作业和任务的主机。 -
执行主机
运行作业和任务的主机。 -
提交主机
从中提交作业和任务的主机。
作业
在 LSF 系统中运行的工作单元。 作业是提交到 LSF 以执行的命令。 LSF 根据配置的策略调度,控制和跟踪作业。
作业可以是复杂问题,模拟场景,广泛计算或需要计算能力的任何内容。
作业槽
作业槽是在 LSF 系统中分配单个工作单元的存储区。
可以使用多个作业插槽来配置主机,并且您可以从队列分派作业,直到所有作业插槽都已填满为止。 您可以将作业插槽与集群中的 CPU 总数相关联。
队列
作业的集群范围容器。 所有作业都在队列中等待,直到调度这些作业并将其分派给主机为止。
队列与个别主机不对应; 每个队列都可以使用集群中的所有服务器主机或已配置的服务器主机子集。
将作业提交到队列时,不需要指定执行主机。 LSF 将作业分派到集群中的最佳可用执行主机以运行该作业。
队列实现不同的作业调度和控制策略。
资源
资源是集群中可用于运行工作的对象。 例如,资源包括但不限于主机, CPU 插槽和许可证。