集群调度LSF-学习笔记

集群-------多台设备
HPC集群----多台用于计算的设备

集群调度-LSF:LSF 是一种强大的工作负载管理平台,提供基于各种策略的智能调度功能,利用分布式的基础架构资源来提高整体的系统性能。用户通过 LSF可以实现集群间的负载均衡,扩展集群构架和资源,最大限度的提高集群的使用效率。

主要命令:

bsub             命令提交
bqueues        队列查看
bhosts          节点查看
bjobs            作业查看


运行bqueues:

QUEUE_NAME:队列名称

PRIO:优先级

NJOBS:几个作业在并行

PEND:阻塞的作业数量

RUN:正在运行的作业数量

SUSP:挂起的作业数量

提交作业:bsub < demo.sh

demo.sh:

#BSUB -J testJob
#BSUB -n 28
#BSUB -o %J.out
#BSUB -e %J.err
#BSUB -q normal

echo "111"

-J 作业名称

-n 作业至少需要的CPU核数(28的倍数),也可以是范围(表示方法如[28,56])

-o 标准输出文件

-i 标准输入文件

-e 标准错误输出文件

-q 作业所提交队列名

-o -i -e 三个参数的文件名中可以包含%J用于表示JOBID;如果没有指定标准输出文件,那么系统会自动设定为 output_%J;如不想要输出文件请设置 -o /dev/null。

执行 bsub < demo.sh 后,成功加入队列将显示:

Job <175039> is submitted to queue <normal>.

查看作业运行情况:bjobs

查看作业详情:bjobs -l 作业号

终止指定的作业:bkill   作业号

查看任务日志,显示处于运行时作业的标准输出和标准错误输出信息:

bpeek  -f  作业号  

显示节点当前负载:lsload

module av  查看可用软件

module load xxx  加载所需软件 

lsload  -gpuload  查看gpu各个卡的信息

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我有明珠一颗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值