LSF作业管理系统使用

LSF作业管理系统使用

相关命令

常见的LSF命令有:
• bqueues –u 用户名 -w:查看计算队列;
• bhosts:查看计算节点列表;
• lsload:查看负载;
• bsub:提交作业;
• bjobs:查看作业状态;
bjobs -l 作业id:查看指定作业的运行情况;
• bkill:终止作业;
• bpeek:查看作业的标准输出;
• bhist:作业历史信息。

作业提交

提交命令

bsub -gpu "num=4:gmem=1100M" -n 核心数 -q 队列名 –o %J.out -e %J.err  python test.py
-n 指定所需的处理器数目;
-q 指定作业运行的队列;
-o 指定作业运行信息的输出文件;%J,可表示作业号;
python test.py是需要运行的命令。
-J 作业的名字;
-gpu num=1 使用一块GPU资源;
-gpu num=1:mode=exclusive_process 使用并独占一个GPU资源;
-gpu "num=2:nvlink=yes: gmodel=TeslaV100" 使用NVLink连接的两块Tesla V100的GPU资源;
-gpu "num=4:gtile=2" 使用4块GPU资源,每块GPU搭配两块CPU资源
-gpu "num=2:gmem=100M" 使用两块内存100MB的GPU资源;
-gpu "num=1:mode=shared" 使用一个共享GPU上的1个GPU。如果有多个GPU资源处于共享模式,LSF会确保不是所有作业都使用相同的GPU资源。

创建job.sh脚本并提交:
job.sh:

#!/bin/bash
#BSUB -gpu "num=4:gmem=1000M"
#BSUB -q 队列名
#BSUB -n 核心数
#BSUB -o %J.out
#BSUB -e %J.err
python main.py ./并行可执行文件

在job.sh所在目录

bsub<job.sh

会提示

Job <29030> is submitted to queue <队列名>.

29030即为作业号,同时会生成29030.out 及29030.err分别存储输出信息及错误信息

作业查看

可以通过作业号查看作业状态
查看作业状态

bjobs 29030

查看作业状态详情

bjobs -l 29030 

查看作业输出(输出全部历史输出信息)

bpeek 29030 

实时查看输出信息(即实时查看29030.out新增信息)

tail -f 29030.out

查看最后100行输出信息

tail -n 100 29030.out 
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值