LSF作业管理系统使用

LSF作业管理系统使用

相关命令

常见的LSF命令有:
• bqueues –u 用户名 -w:查看计算队列;
• bhosts:查看计算节点列表;
• lsload:查看负载;
• bsub:提交作业;
• bjobs:查看作业状态;
bjobs -l 作业id:查看指定作业的运行情况;
• bkill:终止作业;
• bpeek:查看作业的标准输出;
• bhist:作业历史信息。

作业提交

提交命令

bsub -gpu "num=4:gmem=1100M" -n 核心数 -q 队列名 –o %J.out -e %J.err  python test.py
-n 指定所需的处理器数目;
-q 指定作业运行的队列;
-o 指定作业运行信息的输出文件;%J,可表示作业号;
python test.py是需要运行的命令。
-J 作业的名字;
-gpu num=1 使用一块GPU资源;
-gpu num=1:mode=exclusive_process 使用并独占一个GPU资源;
-gpu "num=2:nvlink=yes: gmodel=TeslaV100" 使用NVLink连接的两块Tesla V100的GPU资源;
-gpu "num=4:gtile=2" 使用4块GPU资源,每块GPU搭配两块CPU资源
-gpu "num=2:gmem=100M" 使用两块内存100MB的GPU资源;
-gpu "num=1:mode=shared" 使用一个共享GPU上的1个GPU。如果有多个GPU资源处于共享模式,LSF会确保不是所有作业都使用相同的GPU资源。

创建job.sh脚本并提交:
job.sh:

#!/bin/bash
#BSUB -gpu "num=4:gmem=1000M"
#BSUB -q 队列名
#BSUB -n 核心数
#BSUB -o %J.out
#BSUB -e %J.err
python main.py ./并行可执行文件

在job.sh所在目录

bsub<job.sh

会提示

Job <29030> is submitted to queue <队列名>.

29030即为作业号,同时会生成29030.out 及29030.err分别存储输出信息及错误信息

作业查看

可以通过作业号查看作业状态
查看作业状态

bjobs 29030

查看作业状态详情

bjobs -l 29030 

查看作业输出(输出全部历史输出信息)

bpeek 29030 

实时查看输出信息(即实时查看29030.out新增信息)

tail -f 29030.out

查看最后100行输出信息

tail -n 100 29030.out 
《国科大lsf作业调度系统和超算队列介绍.pdf》是对国家科学技术大学(以下简称国科大)的作业调度系统和超算队列进行介绍的文件。 国科大的作业调度系统采用了IBM的Load Sharing Facility(LSF)软件,LSF是一个高性能计算环境下广泛使用作业调度和管理系统LSF能够根据用户提交的作业和集群资源的情况自动进行作业调度和管理,以提高作业的执行效率和集群的利用率。该系统能够有效地分配和管理集群的资源,提高超算的计算能力,满足用户的需求。 超算队列是指国科大超级计算中心按照一定规则和算法对用户提交的作业进行分配和排队的方式。超算队列能够根据作业的优先级、资源要求等进行作业排序和调度,以保证高优先级作业和重要计算任务的优先执行。通过合理设置和使用超算队列,国科大能够充分利用超级计算资源,提高计算效率和资源利用率。 该文件介绍了国科大的LSF作业调度系统的原理和功能,包括作业的提交和管理、资源的分配和调度等内容。同时也详细介绍了国科大超算队列的设置和调度策略,包括作业排队和优先级排序的算法、资源利用率的监控和统计等内容。 通过《国科大lsf作业调度系统和超算队列介绍.pdf》的阅读,用户可以了解国科大高性能计算环境下的作业调度和管理机制,以及超算队列的设置和调度策略。这有助于用户更好地使用国科大的超级计算资源,优化作业的执行效率和集群的资源利用率。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值