Slurm的前处理prolog和后处理epilog

1. Slurm前处理和后处理

Slurm支持大量的prolog和epilog程序。 请注意,出于安全原因,这些程序没有设置搜索路径。 在程序中指定完全限定的路径名或设置“PATH”环境变量。 下面的第一个表格列出了可用于作业分配的prolog和epilog,它们的运行时间和地点。

参数

地点

由...调用

用户

执行时

Prolog(来自slurm.conf)

计算或前端节点

slurmd守护进程

SlurmdUser(通常是用户root)

该节点上的第一个作业或作业步骤启动(默认情况下);PrologFlags = Alloc将强制脚本在作业分配时执行

PrologSlurmctld(来自slurm.conf)

头节点(slurmctld守护程序运行的地方)

slurmctld守护进程

SlurmctldUser

在工作分配

Epilog(来自slurm.conf)

计算或前端节点

slurmd守护进程

SlurmdUser(通常是用户root)

在工作结束时

EpilogSlurmctld(来自slurm.conf)

头节点(slurmctld守护程序运行的地方)

slurmctld守护进程

SlurmctldUser

在工作结束时


下面的第二个表格列出了作业步骤分配可用的prolog和epilog,它们运行的时间和地点。

参数

地点

由...调用

用户

执行时

SrunProlog(来自slurm.conf)或srun --prolog

srun调用节点

srun命令

用户调用srun命令

在启动工作步骤之前

TaskProlog(来自slurm.conf)

计算节点

slurmstepd守护进程

用户调用srun命令

在启动工作步骤之前

srun --task-prolog

计算节点

slurmstepd守护进程

用户调用srun命令

在启动工作步骤之前

TaskEpilog(来自slurm.conf)

计算节点

slurmstepd守护进程

用户调用srun命令

完成工作步骤

srun --task-epilog

计算节点

slurmstepd守护进程

用户调用srun命令

完成工作步骤

SrunEpilog(来自slurm.conf)或srun --epilog

srun调用节点

srun命令

用户调用srun命令

完成工作步骤


默认情况下,Prolog脚本仅在第一次看到新分配的作业步骤时在任何单个节点上运行; 在授予分配时,它不会立即运行Prolog。 如果在节点上没有运行分配的作业步骤,它将永远不会为该分配运行Prolog。 可以通过PrologFlags参数更改此Prolog行为。 另一方面,Epilog在分配释放时总是在分配的每个节点上运行。
使用与要启动的用户任务相同的环境执行任务序言。 该程序的标准输出读取和处理如下:
export name = value设置用户任务的环境变量
unset name从用户任务中清除环境变量
print ...写入任务的标准输出。

2. 环境变量

除非另有说明,否则这些环境变量可用于所有程序。

BASIL_RESERVATION_ID BASIL预订ID。仅适用于ALPS的Cray系统。
SLURM_ARRAY_JOB_ID如果此作业是作业数组的一部分,则将其设置为作业ID。否则将无法设置。要引用作业数组的此特定任务,请将SLURM_ARRAY_JOB_ID与SLURM_ARRAY_TASK_ID结合使用(例如“scontrol update $ {SLURM_ARRAY_JOB_ID} _ {$ SLURM_ARRAY_TASK_ID} ...”);仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_ARRAY_TASK_ID如果此作业是作业数组的一部分,则将其设置为任务ID。否则将无法设置。要引用作业数组的此特定任务,请将SLURM_ARRAY_JOB_ID与SLURM_ARRAY_TASK_ID结合使用(例如“scontrol update $ {SLURM_ARRAY_JOB_ID} _ {$ SLURM_ARRAY_TASK_ID} ...”);仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_ARRAY_TASK_MAX如果此作业是作业数组的一部分,则将其设置为最大任务ID。否则将无法设置。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_ARRAY_TASK_MIN如果此作业是作业数组的一部分,则将其设置为最小任务ID。否则将无法设置。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_ARRAY_TASK_STEP如果此作业是作业数组的一部分,则将其设置为任务ID的步长。否则将无法设置。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_CLUSTER_NAME执行作业的群集的名称。
SLURM_JOB_GPUS分配给作业的GPU ID(如果有)。仅在Prolog中提供。
SLURM_JOB_ACCOUNT用于作业的帐户名称。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_CONSTRAINTS运行作业所需的功能。仅适用于Prolog,PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_DERIVED_EC所有作业步骤的最高退出代码。仅适用于EpilogSlurmctld。
SLURM_JOB_EXIT_CODE作业脚本(或salloc)的退出代码。该值是wait()系统调用返回的状态(请参阅wait(2))仅适用于EpilogSlurmctld。
SLURM_JOB_EXIT_CODE2作业脚本(或salloc)的退出代码。该值的格式为:。第一个数字是退出代码,通常由exit()函数设置。如果信号被信号终止,则导致该过程终止的第二个信号。仅适用于EpilogSlurmctld。
SLURM_JOB_GID作业所有者的组ID。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_GROUP作业所有者的组名。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_ID作业ID。小心:如果此作业是作业数组的第一个任务,则使用此作业ID的Slurm命令将引用整个作业数组,而不是作业数组的此特定任务。
SLURM_JOB_NAME工作的名称。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_NODELIST分配给作业的节点。 Slurm主机列表表达式。 “scontrol show hostnames”可用于将其转换为单个主机名列表。仅适用于PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_PARTITION作业运行的分区。仅适用于Prolog,PrologSlurmctld和EpilogSlurmctld。
SLURM_JOB_UID作业所有者的用户ID。
SLURM_JOB_USER作业所有者的用户名。
SLURM_WCKEY作业wckey的用户名(如果有)。仅适用于PrologSlurmctld和EpilogSlurmctld。

插件函数也可用于在各种明确定义的点处执行逻辑。

SPANK是另一种在用户命令,slurmd守护进程和slurmstepd守护进程中调用逻辑的机制。

3. 失败处理

如果Epilog失败(返回非零退出代码),这将导致节点设置为DOWN状态。 如果EpilogSlurmctld失败(返回非零退出代码),则只会记录此信息。 如果Prolog失败(返回非零退出代码),这将导致节点设置为DRAIN状态,并且作业在保持状态下重新排队(除非在SchedulerParameters中配置nohold_on_prolog_fail)。 如果PrologSlurmctld失败(返回非零退出代码),这将导致作业重新排队以在可能的情况下在另一个节点上执行。 只能批量作业重新排队。 如果PrologSlurmctld失败,将取消交互式作业(salloc和srun)。

4. 源码分析

计算节点slurmd执行prolog代码调用流程:

main(src\slurmd\slurmd\slurmd.c)
    _msg_engine
        _handle_connection
            _service_connection(src\slurmd\slurmd\slurmd.c)
                slurmd_req
                    _rpc_prolog(REQUEST_LAUNCH_PROLOG)
                    _rpc_batch_job(REQUEST_BATCH_JOB_LAUNCH)
                    _rpc_launch_tasks(REQUEST_LAUNCH_TASKS)
                        _run_prolog(以上三种情况都会执行到这儿)
                            _build_env(设置相关环境变量,包括SLURMD_NODENAME)
                            _run_job_script
                                run_script
                                    _run_one_script
                                        fork & execve

 

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值