- 博客(23)
- 资源 (13)
- 收藏
- 关注
原创 Slurm开发入门介绍
目录1.形势分析1.1.我国新基建战略与先进计算产业1.2数据中心/云计算中心/超算中心的核心部件以X86服务器为主1.3 大国在HPC领域的较量2.1.调度技术一览2.2 Slurm2.2.2.Slurm的关键功能2.3.应用2.3.1超算应用2.3.2应用范式2.4.资源2.4.1.集群2.4.2.计算2.4.3.网络2.4.4.存储1.形势分析1.1.我国新基建战略与先进计算产业1.2.数据中心/云计算中心/超算中..
2021-06-22 09:51:39 2192 1
转载 拥抱高性能计算:将Slurm集成为K8s调度程序
SUNK是一个开源项目(将于 2024 年初发布),它将 Kubernetes 容器化部署和 GitOps 引入 Slurm,并将 Slurm 调度程序插件集成到 Kubernetes。本质上,SUNK 将 Slurm 集成为 Kubernetes 调度程序,并允许 Slurm 作业在 Kubernetes 内运行。这创造了更加无缝的体验,在同一中央平台上支持爆发式和批量工作负载,并允许开发人员利用 Kubernetes 上的 SLURM 资源管理。
2023-11-27 15:36:05 2614
原创 Slurm集群调度策略详解(2)-回填调度
回填调度在slurm中采用基于Conservative Backfilling的算法,通过插件的形式来提供服务。slurmctld服务在启动时,默认或根据配置项SchedulerType=sched/backfill进行回填调度插件的加载。回填调度充分利用大作业排队的时间间隙,在不会延迟任何较高优先级大作业预期开始时间的前提下,将优先调度低优先级的小作业启动运行。回填调度的使用,将提高小作业的响应时间,而且提高系统资源的利用率。
2023-02-27 10:44:39 2395
原创 burst buffer技术初探
burst buffer是超算中一种作业加速技术,主要解决全球气候模拟预测建模、流体力学分析、磁性融合、天体物理学、生物分子模拟中浪涌型I/O的情况,burst buffer作为前端计算和后端存储之间的缓冲区,它弥合了计算节点的处理速度与存储系统的I/O带宽之间的性能差距。本文介绍了常见burst bufffer技术以及slurm 对burst buffer的支持。
2022-12-12 10:04:04 1566
原创 Slurm集群调度策略详解(1)-主调度
Slurm调度系统中针对作业的调度主要有三种,主调度,回填调度,GANG调度,这篇文章主要针对主调度进行解析。
2022-11-10 14:14:11 3899
原创 Slurm集群安装部署
本文档来源于Slurm China社区小伙伴对Slurm集群安装部署的文档汇总:Centos7搭建slurm-21.08.5作业管理系统集群,支持Token登录 (wanghaiqing.com)Automatic SLURM Build & Installation Script | Commercial Support | NI SP (ni-sp.com)Ubuntu 18.04/Mint 19 单机安装Slurm从0搭建Centos7 计算集群想加入Slurm China
2022-04-06 10:05:10 1495 1
原创 HPC领域有价值的信息源
行业调研:1.Intersect360:http://www.intersect360.com/index.html2.Gartner:https://www.gartner.com/HPC行业博客:1.HPCwire:https://www.hpcwire.com/2.insideHPC:https://insidehpc.com/3.HPC in ...
2019-12-23 14:37:35 793
原创 Slurm的PBS、LSF兼容接口
Slurm工作负载管理器软件是一个免费的开源工作负载管理器,专为满足高性能计算的苛刻需求而设计。LSF(Load Sharing Facility)是分布资源管理的工具,用来调度、监视、分析联网计算机的负载。Slurm通过openlava接口提供了对LSF的必要兼容,可以实现作业提交、取消、查询等功能。slurm-18.08源码中,openlava接口位于slurm-18.08.2/contr...
2019-12-21 16:15:14 2779 1
原创 Slurm MPI Job
1. compute_pi.cpp#include <mpi.h>#include <math.h>#include <sys/types.h>#include <unistd.h>#include <iostream>int main(int argc, char **argv) { int n, myid, nu...
2019-12-13 18:43:43 790
翻译 面向E级高性能计算的软件栈(五)
4. 使用示例在本节中,我们提出了一个PMIx接口的实际用例,该用例基于用户级故障缓解(ULFM)规范来支持开放MPI中的容错,该规范加强了检测并协调对故障事件的响应。响应故障是一个复杂的问题,因为系统中的各种组件都可能报告事件,例如网络驱动程序、来自故障MPI通信的带内检测、MPI进程资源环境、系统范围的资源管理器RAS服务、交换机和SNMP陷阱。类似地,多个组件可能对错误事件感兴趣并作...
2019-12-07 18:14:03 682
翻译 面向E级高性能计算的软件栈(四)
3.3. 动态进程管理历史动态进程管理API反映了大容量同步编程模型(如MPI-3标准)的需求,这些模型要求操作作为一个集合执行,所有指定的进程在声明操作完成之前参与操作。最近,编程库已经开始向异步模型的方向发展,在异步模型中,进程定期聚合成组,然后在完成一些操作之后解散。这些新方法将受益于通知其他进程希望聚合的功能,并允许聚合进程本身异步进行。PMIx通过引入在以前PMI实现中找到的“C...
2019-12-07 15:55:04 365
翻译 面向E级高性能计算的软件栈(三)
3. 当前关注领域在本节中,我们将讨论当前的PMIx标准工作组,以及他们正在设计的接口如何帮助降低开销并提供新功能。除非指定,否则这些功能存在于当前的v2.0规范中,并在相应的v2.x参考实现中得到支持。3.1 协调启动过程正如前面所讨论的,应用程序启动期间的最大时间成本历来是集体共享连接端点信息(BCX)所需的时间,其次是开始操作之前的屏障(barrier)。对交换数据的分析显示,在...
2019-12-06 16:05:55 360 2
翻译 面向E级高性能计算的软件栈(二)
2. PMIx 社区PMIx社区由横跨一般HPC领域的行业、政府和学术界成员组成,专门关注应用程序启动和执行的编排。社区的出现源于对两个问题的共同关注,一个是与机器规模的不断扩大相关的问题,另一个是支持HPC编程领域不断增长的创新浪潮的能力。在如此多样化的集合中组成联盟绝非易事,一个关键因素是早期达成的协议,即任何SMS子系统都保留对任何请求返回“不支持”响应的权利。因此,与会者基本上同意...
2019-12-05 16:36:54 796
原创 Slurm使用hdf5/influxdb收集节点和作业的能耗、IB、fs等信息
1. 参数1.1 slurm.confAcctGatherNodeFreqAcctGather插件用于节点计费的采样间隔。 对于AcctGather插件值为none的情况,将忽略此参数。 对于所有其他值,此参数是节点记帐样本之间的秒数。 对于acct_gather_energy / rapl插件,请将其值设置为小于300,因为计数器可能会超出此速率溢出。 默认值为零, 此值禁用节点的记...
2019-12-04 11:54:34 1747
原创 Slurm限制普通用户登陆计算节点(超算管理员必看)
SLURM提供了通过PAM插件限制普通用户随意登陆计算节点的功能。(一)配置过程(1)编译Slurm时指定编译参数--enable-pam。(2)在slurm源码安装目录contribs/pam_slurm_adopt/目录下make && make install。然后将生成的pam_slurm_adopt.a, pam_slurm_adopt.la和 pam_s...
2019-12-01 20:35:06 7020 5
原创 Slurmd调用PMIX然后调用UCX流程
1. GDB调试slurmd过程kill -9 `pidof gdb` && kill -9 `pidof slurmd`systemctl restart slurmd && sinfo && gdb slurmd_set follow-fork-mode childb slurmd_reqrcc>sbat...
2019-11-16 20:01:51 1728 4
翻译 面向E级高性能计算的软件栈(一)
1. 介绍尽管处理器频率停滞不前,但维持可控的功率预算的需求,对生产更强大超级计算机的动力构成了挑战。高性能计算(HPC)系统随后采用了基于稳定增长的计算单元的多级、大规模并行计算。因此,在可靠性和功率约束下实现百亿亿次性能所需要的十亿个并行方式有望在50-100k节点中实现,这将推动未来的节点架构朝着多核和基于加速器的设计方向发展,从而按agnitude的顺序增加每个节点的复杂性。同时,成本...
2019-11-11 18:04:32 1213
原创 Slurm基本用法(入门必看)
本文描述Linux集群的基本Slurm用法。1. 一个简单的Slurm脚本$ cat slurm-job.sh#!/usr/bin/env bash#SBATCH -o slurm.sh.out#SBATCH -p defqecho "In the directory: `pwd`"echo "As the user: `whoami`"echo "write this ...
2019-11-10 00:05:43 49941 50
原创 Slurm架构和源码分析
1. Slurm简介SLURM (Simple Linux Utility for Resource Management)是一个可用于大型计算节点集群的高度可伸缩的集群管理器和作业调度系统。由60万行C代码组成。SLURM 提供三种关键功能:分配对资源的排他和/或非排他访问; 提供一个用于在分配的节点集上启动、执行和监视作业的框架; 通过管理一个未完成作业队列来解决对资源的争用。...
2019-11-05 15:42:16 4511
原创 Slurm的前处理prolog和后处理epilog
1. Slurm前处理和后处理Slurm支持大量的prolog和epilog程序。 请注意,出于安全原因,这些程序没有设置搜索路径。 在程序中指定完全限定的路径名或设置“PATH”环境变量。 下面的第一个表格列出了可用于作业分配的prolog和epilog,它们的运行时间和地点。 参数 地点 由...调用 用户 ...
2019-11-05 11:02:50 1968
原创 Slurm如何应对超大作业的NSS压力?
nss_slurm是一个可选的NSS插件,它允许计算节点上的作业通过本地slurmstepd进程进行passwd和group解析,而不是通过其他基于网络的服务,如LDAP、SSSD或NSLCD。在集群上启用时,对于每个作业,作业的用户将拥有完整的struct passwd信息——用户名、uid、主gid、gecos信息、主目录和shell——作为每个步骤启动的一部分安全发送,并缓存在slurm...
2019-11-01 14:54:50 1269
原创 Slurm如何管理和使用节点资源
Slurm管理和使用集群节点资源主要分为四个环节:分别是初始化节点资源、更新节点资源、测试节点资源可用、实际分配节点资源。1.初始化节点资源slurmctld初始化时解析节点配置文件,借助几个全局数据结构(select插件中也有几个数据结构): node_record_table_ptr 节点数组,保存所有节点描述符 node_hash...
2019-10-31 15:50:10 9777 3
BlueField DPU Solutions 202104.pdf
2022-01-11
UCX Training March 2020.pdf
2021-06-23
2020 HPC Report Market Update.pdf
2021-02-27
部署和调试OpenMPI的最佳实践
2020-12-22
slurm调度设计文档
2020-12-22
How Mellanox BlueField SmartNIC Transforms Bare-Metal Cloud.pdf
2020-06-04
操作系统调度器的演进.pdf
2019-12-21
MPI并行编程入门培训.pdf
2019-12-11
PMIx Process management for exascale environments.pdf
2019-12-01
InfiniBand Training - M.pdf
2019-12-01
slurm_design
2018-08-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人