freeswitch 集群_Spectrum LSF: 高效的集群管理系统

介绍

计算机通过执行程序,帮助科研人员进行科学研究。通常,计算机的使用者不关心程序的执行过程,他们只希望更快更有效地获取运算结果。而为了提供强大的计算能力,大量的计算资源以集群的形式出现。集群系统的使用和有效管理都面临着挑战。

LSF(Load Sharing Facility)是一款分布式集群管理系统软件,负责计算资源的管理和批处理作业的调度。它给用户提供统一的集群资源访问接口,让用户透明地访问整个集群资源。同时提供了丰富的功能和可定制的策略。LSF 具有良好的可伸缩性和高可用性,支持几乎所有的主流操作系统。它通常是高性能计算环境中不可或缺的基础软件。

LSF 虽然是一款商业软件,但它同时也提供免费的社区版供大家下载和使用。

简单的使用

LSF 的使用者可以大约分为两类,普通用户和集群系统管理员。普通用户可以通过命令,将计算程序提交给集群执行,获取计算结果。系统管理员可以通过配置文件和管理命令,管理集群以及统计计算资源的使用情况。

00c33b0eec9659bd5937e08b83279f85.png

图 1. LSF结构图

普通用户提交可执行程序或脚本给LSF。LSF 将已提交的程序称为作业。作业在LSF 的队列 (Queue) 里排队 (PEND) ,等待调度。

清单 1. 提交作业

lsfrhel01 # bsub –R "linux" sleep 1000

Job <1> is submitted to default queue .

lsfrhel01 # bjobs

JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME

1 tom PEND normal lsfrhel01 *eep 1000 May 9 15:42

LSF 根据配置的调度策略,把作业分配到最合适的计算节点上执行 (RUN) 。用户可以通过命令行查看,控制作业的执行过程。除此之外,LSF还为用户提供了作业修改,需求描述,作业控制等多种命令行工具。

清单 2. 查看运行作业

sfrhel01 # bjobs

JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME

1 tom RUN normal lsfrhel01 lsfrhel02 *eep 1000 May 9 15:42

系统管理员通常需要了解整个集群系统中作业和资源的使用状况,LSF 提供的命令帮助管理员快速直观地看到系统概况:系统中队列的状态,机器的状态,作业的资源使用概况,等等。除此之外,LSF 还为管理员提供了丰富的集群配置,控制,管理等功能。

清单 3. 查看LSF系统信息

lsfrhel01 # bqueues normal

QUEUE_NAME PRIO STATUS MAX JL/U JL/P JL/H NJOBS PEND RUN SUSP

normal 30 Open:Active - - - - 1 0 1 0

lsfrhel01 # bhosts

HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV

lsfrhel01 ok - 4 0 0 0 0 0

lsfrhel02 ok - 8 1 1 0 0 0

lsfrhel01 # bacct

Accounting information about jobs that are:

- submitted by users tom,

- accounted on all projects.

- completed normally or exited

- executed on all hosts.

- submitted to all queues.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值