集群上作业提交系统的使用与简介
LSF作业提交系统
bsub:作业提交
通用方法
bkill:删除作业
bjobs:查看作业
bqueues:查看队列信息
PBS作业提交系统
qsub:作业提交
通用方法
qdel:删除作业
qstat:显示作业状态
pbsnodes:显示集群中所有节点信息
LSF作业提交系统
bsub:作业提交
通用方法
#BSUB -n num
#BSUB -l nodes=1:ppn=1
#BSUB -q queue
#BSUB -o path
#BSUB -e errorPath
#BSUB -J jobName
#BSU -I
-n:指定num为计算核心数
-q:指定queue队列
-o:将标准输出重定向到path
-e:将标准错误信息重定向到errorPath
-J:指定jobName为作业名称
-I:交互模式
bkill:删除作业
删除作业12345:
bkill 12345
bjobs:查看作业
bqueues:查看队列信息
PBS作业提交系统
PBS是一个作业调度系统,常用于分布式高性能计算集群的作业管理。
qsub:作业提交
通用方法
在集群上使用qsub run.pbs提交作业,run.pbs一般包括这些信息:
#PBS -N jobName
#PBS -l nodes=1:ppn=1
#PBS -q queue
#PBS -o path
#PBS -e errorPath
#PBS -l walltime=800:00:00
cd ./home/myJob
./job
-N:指定jobName为作业名
-l:用来定义资源列表,nodes=1指定该作业运行的节点数量为1,ppn=1指定每个节点需要1个cpu。walltime指定作业运行时间,800:00:00代表800个小时。
-q:指定queue队列
-o:将标准输出重定向到path
-e:将标准错误信息重定向到errorPath
最后两行是进入作业目录并执行该作业
qdel:删除作业
删除作业12345:
qdel 12345
强制删除作业12345:
qdel -p 12345
15s后删除作业12345:
qdel -W 15 12345
qstat:显示作业状态
查看所有作业:
qstat -q
查看作业12345:
qstat -f 12345
pbsnodes:显示集群中所有节点信息
查看闲置节点:
pbsnodes -l free