Slurm查看作业信息

本文介绍了如何使用sstat和sacct命令来查看正在运行及已完成的作业资源使用情况,包括进程ID、平均CPU使用率、平均及最大内存使用等关键指标。
  1.        查看running job 资源信息
$ sstat -a --format="JobId,Pids,AveCPU,AveRSS,MaxRSS"  jobID
  1.        sacct 查看FINISHED作业
    sacct --format="JobId,Elapsed,CPUTime,CPUTimeRAW,AveCPU,TotalCPU,UserCPU,SystemCPU,AveRSS,MaxRSS" -j JobID(一串数字)

    Reference from http://blog.csdn.net/kongxx/article/details/52556943

### 如何在 Slurm 中提交作业 #### 使用批处理模式提交作业 Slurm 的批处理模式是最常用的作业提交方式之一。通过 `sbatch` 命令可以向集群提交一个包含任务指令的脚本文件。以下是具体操作方法: 1. **创建批处理脚本** 创建一个 `.sh` 文件作为批处理脚本,其中包含必要的资源请求和实际运行的任务命令。 下面是一个简单的 Python 脚本示例: ```bash #!/bin/bash #SBATCH --job-name=example_job # 设置作业名称 #SBATCH --output=result_%j.log # 输出日志到 result_<job_id>.log 文件 #SBATCH --partition=normal # 请求分区 (队列) #SBATCH --nodes=1 # 请求节点数量 #SBATCH --ntasks-per-node=1 # 每个节点上的任务数 #SBATCH --cpus-per-task=4 # 每个任务使用的 CPU 核心数 #SBATCH --time=01:00:00 # 作业最大运行时间 (HH:mm:ss) module load python/3.9 # 加载所需的模块 source activate myenv # 激活 Anaconda 虚拟环境 python script.py # 运行 Python 脚本 ``` 2. **提交批处理脚本** 使用以下命令提交上述脚本至 Slurm 集群: ```bash sbatch submit_script.sh ``` 此时,Slurm 将会接收并排队该作业,并返回一个唯一的 Job ID[^2]。 --- #### 使用交互模式提交作业 如果需要实时调试程序或进行交互式开发,则可以通过 `srun` 或 `salloc` 实现交互模式下的作业提交。 ##### 方法一:使用 `srun` 可以直接启动一个交互式的 shell 环境来测试代码: ```bash srun --pty /bin/bash ``` 在此基础上还可以指定更多参数,例如: ```bash srun --partition=gpu --gres=gpu:1 --mem=8G --time=02:00:00 --pty /bin/bash ``` 这条命令表示申请 GPU 分区的一个 GPU 设备、内存大小为 8GB 并允许最长两小时的运行时间[^3]。 ##### 方法二:使用 `salloc` 另一种实现交互的方式是先分配资源再手动执行命令: ```bash salloc --partition=debug --nodes=1 --ntasks=1 --time=00:30:00 ``` 一旦成功获取资源后即可输入任意命令完成工作,比如编译源码或者训练模型等。 --- #### 使用分配模式提交作业 对于某些特殊场景下可能需要用到显式资源预留功能即所谓的“分配模式”,它主要依赖于 `salloc` 来提前锁定所需硬件设施然后再单独调用其他工具去利用这些已获准许的设备。 ```bash salloc -N 2 -n 4 --exclusive mpirun ./a.out ``` 此处 `-N` 参数指定了总共需要多少台机器而 `-n` 则表明整个过程中涉及到了几个进程参与运算过程;最后一步则是真正意义上的应用程序启动阶段[^4]。 --- ### 变量说明 当作业被调度器接受以后便会自动生成一系列内置环境变量供用户查询相关信息以便更好地控制流程逻辑走向。部分重要字段如下所示: - `$SLURM_JOB_ID`: 当前正在运行中的唯一标识符; - `$SLURM_SUBMIT_DIR`: 用户最初发起请求所在的绝对路径地址; - `$SLURM_NPROCS`, `$SLURM_TASKS_PER_NODE`, etc.: 描述了关于规模方面的细节数据[^5]。 --- 问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值