【集群】Slurm作业调度系统的使用

最新推荐文章于 2025-03-05 22:16:57 发布

qq_29750461

最新推荐文章于 2025-03-05 22:16:57 发布

阅读量7.8k

点赞数 10

分类专栏：目标检测计算机软件文章标签： linux java 人工智能

本文链接：https://blog.csdn.net/qq_29750461/article/details/128984232

版权

本文介绍了Slurm作为开源集群管理和作业调度系统，用于大型和小型Linux集群。重点讲解了Slurm的三种作业模式：批处理、交互式和实时分配模式，以及常用命令如sbatch、srun、salloc等。此外，还阐述了Slurm的关键功能，如资源分配、任务执行和管理，并提供了作业脚本示例。文章还列举了squeue、sinfo等命令的使用和节点状态查询。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近使用集群进行实验，记录并学习集群系统进行深度学习的实验过程。集群所使用的作业调度系统为Slurm，这里记录下使用的常用命令和一些注意事项。

Slurm简介

Slurm是一个开源，容错，高度可扩展的集群管理和作业调度系统，适用于大型和小型Linux集群。Slurm不需要对其操作进行内核修改，并且相对独立。作为集群工作负载管理器，Slurm有三个关键功能。
1 它在一段时间内为用户分配对资源（计算节点）的独占和/或非独占访问，以便他们可以执行工作。
2 它提供了一个框架，用于在分配的节点集上启动，执行和监视工作（通常是并行作业）。
3 它通过管理待处理工作的队列来仲裁资源争用。

调度系统主要作用

单一系统映像

解决集群结构松散问题；统一用户接口，使用简化；

系统资源整合

管理异构资源和异构系统；

多任务管理

统一管理任务，避免冲突；

资源访问控制

基于策略的资源访问控制；

简单来讲，调度系统是面向集群的操作系统。

Slurm三种模式

1 批处理作业（采用sbatch命令提交，最常用方式）

对于批处理作业（提交后立即返回该命令行终端，用户可进行其它操作）使用sbatch命令提交作业脚本，作业被调度运行后，在所分配的首个节点上执行作业脚本。在作业脚本中也可使用srun命令加载作业任务。提交时采用的命令行终端终止，也不影响作业运行。

2 交互式作业提交（采用srun命令提交）

资源分配与任务加载两步均通过srun命令进行：当在登录shell中执行srun命令时，srun首先向系统提交作业请求并等待资源分配，然后在所分配的节点上加载作业任务。采用该模式，用户在该终端需等待任务结束才能继续其它操作，在作业结束前，如果提交时的命令行终端断开，则任务终止。一般用于短时间小作业测试。这种方式类似于正常的通过命令行运行程序。需要一直保持连接状态

3 实时分配模式作业（采用salloc命令提交）

分配作业模式类似于交互式作业模式和批处理作业模式的融合。用户需指定所需要的资源条件，向资源管理器提出作业的资源分配请求。提交后，作业处于排队，当用户请求资源被满足时，将在用户提交作业的节点上执行用户所指定的命令，指定的命令执行结束后，运行结束，用户申请的资源被释放。在作业结束前，如果提交时的命令行终端断开，则任务终止。典型用途是分配资源并启动一个shell，然后在这个shell中利用srun运行并行作业。

注

（1）salloc后面如果没有跟定相应的脚本或可执行文件，则默认选择/bin/sh，用户获得了一个合适环境变量的shell环境。
（2）salloc和sbatch最主要的区别是salloc命令资源请求被满足时，直接在提交作业的节点执行相应任务，而sbatch则当资源请求被满足时，在分配的第一个节点上执行相应任务。
（3）salloc在分配资源后，再执行相应的任务，很适合需要指定运行节点和其它资源限制，并有特定命令的作业。

常用命令

sbatch：提交作业脚本。此脚本一般会包含一个或多个srun命令启动并行任务
sinfo：显示分区或节点状态，可以通过参数选项进行过滤、和排序
squeue：显示队列的作业及作业状态
scancel：取消排队或运行中的作业
scontrol：显示或设定slurm作业、分区、节点等状态
sacctmgr：显示和设置账户关联的QOS等信息
sacct：显示历史作业信息
srun：运行并行作业，具有多个选项，如：最大和最小节点数、处理器数、是否
指定和排除节点。