目录
1. LSF作业调度系统和服务器集群介绍
在一个服务器集群中,有很多的人要使用,却只有很少的GPU。LSF作业调度系统则是对每个用户提交的作业和需要使用的GPU进行调度。一般使用bsub命令来将待运行的作业提交到集群上。
用bsub < run.sh提交了作业,一般是作业已经可以成功跑起来,提交了作业后直接等作业运行结束就行。但更多时候我们的代码可能会出现报错,需要进行调试。
一般情况下,我们会用pychram/ vscode等软件对代码打断点,进行调试。但使用的是本地的CPU资源,而不是服务器上的GPU。而且我们本地的电脑往往存储不够,不能加载大模型,没有在GPU上提交作业加载模型的话也无法在本地进行调试。这就需要用bsub开启一个交互式的窗口进行调试。
2. bsub运行作业的两种方式
2.1 bsub直接提交作业
比较常用的一种方式。通常是把作业脚本和需要使用的gpu资源定义在sh文件里,然后用busb < run.sh 来提交文件。一个sh文件示例如下:
#/bin/bash
#BSUB -J job_name
#BSUB -e /nfsshare/home/xxx/log/NAME_%J.err
#BSUB -o /nfsshare/home/xxx/log/NAME_%J.out
#BSUB -n 2
#BSUB -q gpu
#BSUB -R "rusage[ngpus_physical=2]"
#BSUB -gpu "num=2:mode=exclusive_process"
python file.py
bsub参数说明
| bsub参数 | 说明 | 示例 |
|---|---|---|
| -n : 提交一个并行作 |

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



