slurm 使用

简单使用

方法一:
交互式使用方式:使用 salloc 请求资源,然后可以使用 ssh 连接节点后使用。squeue 用来查看 job

salloc -N1 -n1 --exclusive
squeue -u `username` --state=running
ssh casxxx

详解解释
–exclusive 为独占节点,

方法二:
srun -N 2 -n 24 -p debug -q debug programname > ouputfile
-N 表示节点个数,-n 表示总进程数,-p 表示分区,-q表示优先级,programname 表示要运行的程序, > ouputfile 表示屏幕输出保存的文件。

sbatch 提交作业

  • 先写作业脚本 xxx.slurm
  • 然后再使用命令 sbatch xxx.slurm 提交作业
  • 以下为一个作业脚本示例
#!/bin/bash

#SBATCH --job-name=hostname
#SBATCH --partition=cpu
#SBATCH -N 1
#SBATCH --mail-type=end
#SBATCH --mail-user=YOU@EMAIL.COM
#SBATCH --output=%j.out
#SBATCH --error=%j.err
#SBATCH --time=00:00:10
#SBATCH --exclusive

/bin/hostname

向cpu队列申请1个节点,将作业最大运行时长限制设置为10秒,并在作业完成时通知。在此作业中执行的命令是/bin/hostname。

更多例子:http://hpc.pku.edu.cn/_book/guide/slurm/sbatch.html

申请cpu

#!/bin/bash
#SBATCH -o job.%j.out
#SBATCH -p C032M0128G
#SBATCH --qos=low
#SBATCH -J myFirstJob
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=1

hostname

解释:

#SBATCH -o job.%j.out       # 脚本执行的输出将被保存在job.%j.out文件下,%j表示作业号;
#SBATCH -p C032M0128G       # 作业提交的指定分区为C032M0128G;
#SBATCH --qos=low           # 指定作业的QOS为low;
#SBATCH -J myFirstJob       # 作业在调度系统中的作业名为myFirstJob;
#SBATCH --nodes=1           # 申请节点数为1;
#SBATCH --ntasks-per-node=1 # 每个节点上运行一个任务,默认一情况下也可理解为每个节点使用一个核心;

申请 GPU 的作业例子

#!/bin/bash
#SBATCH -o job.%j.out
#SBATCH --partition=GPU
#SBATCH --qos=low
#SBATCH -J myFirstGPUJob
#SBATCH --nodes=1                 # 申请一个节点
#SBATCH --ntasks-per-node=6
#SBATCH --gres=gpu:tian_xp:1              # 每个节点上申请一块GPU卡


nvidia-smi

注:使用 scontrol show nodes 可以查看节点的配置,申请gpu需要指定类型:--gres=gpu:titan_xp:1 表示申请1块类型为titan_xp的GPU。

geforce_rtx_2080_ti

注意:必须加分区才能申请成功

一些常用的命令

  • scancel jobid :取消某个job
  • sacct :查看之前的任务
  • squeue:查看作业状态
  • sinfo:查看分区和节点信息
  • scontrol show nodes:查看节点的配置信息

其他教程地址

http://bicmr.pku.edu.cn/~wenzw/pages/slurm.html

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于slurm使用教程,你可以参考以下步骤: 1. 首先,确保你已经在你的系统上安装了slurm。你可以从slurm官网下载适合你系统的软件包。 2. 一旦安装完成,你需要配置slurm。你可以根据你的需求修改配置文件,如slurm.conf。这个文件包含了各种有关集群和作业调度的设置。你可以根据需要设置集群的节点、作业队列、资源限制等信息。 3. 在配置完成后,你可以启动slurm服务。使用命令行工具或者slurm提供的脚本,启动slurm控制守护进程(scontrol daemon),它负责集群的管理和作业调度。 4. 现在,你可以开始使用slurm来提交作业了。使用sbatch命令来提交一个作业脚本,该脚本描述了你要运行的作业的详细信息,如任务数、CPU核心数、内存需求等。提交作业后,slurm会根据你的配置和集群的资源情况来调度作业。 5. 你可以使用squeue命令来查看当前正在运行和等待运行的作业列表。使用scontrol命令可以查看更多有关作业和集群的信息,如作业状态、节点状态等。 6. 当你的作业完成后,slurm会将结果输出到指定的文件中。你可以使用sacct命令来查询作业的运行情况和结果。 总结起来,使用slurm的基本步骤包括安装slurm、配置slurm、启动slurm服务、提交作业、监视作业状态和结果。这些步骤可以帮助你充分利用slurm来管理和调度你的集群作业。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [集群Slurm使用教程](https://blog.csdn.net/pengru120/article/details/120868403)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [slurm安装指南](https://download.csdn.net/download/yttjupiter/4300960)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [slurm 使用教程](https://blog.csdn.net/funnyPython/article/details/114315004)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值