前言
基于网上资料对相关概念做整理汇总,部分内容引用自文后文章。
bsub
LSF(load sharing facility):分布资源管理的工具,用来调度、监视、分析联网计算机的负载。
目的:通过集中监控和调用,充分共享计算机的CPU、内存、磁盘、license等资源。
一组安装了LSF软件的计算机组成了一个cluster。cluster内的资源统一监控和调度。
bsub,提交给lsf作业的命令。
命令格式
bsub [options] command [argument]
bsub -pack job_submission_file
常用命令举例:
bsub -Is -q FE verdi //提交任务
bjobs -w //查看目前提交的任务
-q 选择队列
-i 指定输入文件
-I 交互模式,此时终端不能输入
-o 指定输出文件,作业提交后标准输出的信息会保存到这个文件中。
-e 指定输出文件,作业提交后标准错误输出的信息会保存到这个文件中。
-n 指定作业需要的CPU核
-J 作业的名字
-w ‘dependecy_expression’ , 提交作业前,指定操作。
操作有: done
ended, 如 –e “ended(aaaa*)” , 表示作业名中有aaaa的作业,完成之后才可以提交作业
exit
-W 限定作业运行时间
-K 提交作业,并且等待作业完成。当提交作业后,终端打印“waiting for dispath”。
当作业完成后,终端打印“job is finished”。作业没有完成,不能提交新的作业。
%J,可表示作业号
命令
bjobs :查看系统的job
bsub :提交作业
bhist :查看作业历史
bkill : kill一个作业