slurm(一) —— 简介

      Slurm(Simple Linux Utility for Resource Management) 是一个开源、容错、高可伸缩的集群管理和大型小型 Linux 集群作业调度系统。

       SLURM 是一种可用于大型计算节点集群, 在超算平台上用得很多。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它还以一种排他或非排他的方式管理可用的计算节点(取决于资源的需求)。最后,SLURM 将作业分发给一组已分配的节点来执行工作并监视平行作业至其完成。

      本质上,SLURM 是一个强健的集群管理器(更关注于对功能丰富性的需求方面),它高度可移植、可伸缩至大型节点集群、容错好,而且更重要的是它是开源的。SLURM 最早是一个开源的资源管理器,由几家公司(包括 Lawrence Livermore National Laboratory)协作开发。如今,SLURM 已经成为了很多最强大的超级计算机上使用的领先资源管理器。

slurm入门_plane0654的博客-CSDN博客_srun sleep

作业 — 上海交大超算平台用户手册 文档

https://blog.mrzhenggang.com/supercomputer-courses-slurm/#%E6%9F%A5%E7%9C%8B%E5%8F%AF%E7%94%A8%E8%8A%82%E7%82%B9-yhi

### Slurm Exporter 安装配置与使用教程 #### 简介 Prometheus Slurm Exporter 是个开源项目,旨在从 Slurm 资源调度系统中收集并导出关键的性能指标。通过与 Prometheus 监控系统的集成,该工具能实时展示 CPU、GPU、节点、作业和分区的状态,为资源管理和优化提供数据支持[^3]。 #### 二、安装过程 ##### 准备工作 确保操作系统环境已准备好,推荐的操作系统版本为 Ubuntu 16.04 或更高版本。此环境中需预先完成 Python 的安装以及必要的依赖库准备。 ##### 获取 Prometheus Slurm Exporter 可以通过 Git 克隆官方仓库获取最新版的 Prometheus Slurm Exporter: ```bash git clone https://gitcode.com/gh_mirrors/pr/prometheus-slurm-exporter.git cd prometheus-slurm-exporter ``` 接着按照项目的 `README.md` 文件中的指导进行编译构建操作[^2]。 #### 三、配置说明 在成功部署之后,需要编辑配置文件以适应具体的集群设置。通常情况下,这涉及到修改 exporter 所监听的服务端口以及其他特定于站点的需求参数。具体配置项可以在文档或源码目录下的默认配置模板找到指引。 对于想要监控的具体 slurm 数据,比如 job 正在运行的情况,则可通过 squeue 命令来查询当前队列状态及其占用资源情况,这对于理解如何映射到 metric 上非常有帮助[^4]。 #### 四、启动服务并与 Prometheus 集成 当切就绪后,就可以尝试启动 Prometheus Slurm Exporter 并将其加入到 Prometheus server 的 targets 列表里以便抓取相应的 metrics 数据了。般而言,会采用 systemd 来管理这个进程作为后台守护程序持续运行。 #### 五、验证功能正常运作 最后步就是确认整个链路是否通畅——即能否顺利地从 Prometheus UI 页面上看到由 Slurm 提供的各项统计信息图表显示出来。如果遇到任何问题,应该检查日志记录寻找线索解决问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值