slurm资源监控_使用SLURM优化超级计算机中的资源管理

本文介绍了SLURM,一种用于大型计算节点集群的资源管理和作业调度系统,广泛应用于超级计算机。SLURM维护工作队列,高效管理计算资源,支持灵活的配置和扩展。通过配置文件和命令行工具,可以轻松安装和管理SLURM集群,适用于各种高性能计算场景。
摘要由CSDN通过智能技术生成

slurm资源监控

超级计算机是军备竞赛的经典例子。 当现代超级计算机的性能不断提高扩展到新的问题领域时,这些庞大的系统为解决新问题提供了平台。 随着公司和国家努力提高LINPACK分数,超级计算机成为国家和公司荣誉的来源。 图1说明了超级计算机军备竞赛的过去五年,其中IBM Sequoia超级计算机是当前预计的2012年领导者。如图所示,IBM Roadrunner是第一台突破持久petaflops障碍的超级计算机(IBM BlueGene®/ L保持了领先地位)。从2004年到2008年排名第一)。

图1.超级计算机性能:2008-2012年
该图显示了2004年至2008年PFLOPS中的超级计算机性能

早期的超级计算机被设计用来模拟核武器。 如今,它们的应用变得更加多样化,解决了气候研究,分子建模,大规模物理模拟甚至暴力破解代码领域中的大量计算问题。

1964年至今

第一台超级计算机通常被认为是1964年发布的Control Data Corporation(CDC)6600(由Seymour Cray设计)。 6600在四个机柜中装有硬件,氟利昂冷却系统和一个能够每秒进行300万次浮点运算(FLOPS)的CPU。 尽管并不缺乏美观性,但其机柜中显然充满了彩色导线,将其外围单元处理器与单个CPU捆绑在一起,以使其尽可能保持繁忙。

快进到今天,当前的超级计算机领导者是日本的Kei计算机(由Fujitsu制造)。 该系统使用分散在864个机柜中的88,000多个SPARC64处理器,专注于强力计算能力。 Kei超级计算机的独特之处在于打破了10 petaflop的壁垒。 与CDC 6600相似,Kei不仅使用水冷,还使用水冷。

什么是超级计算机?

超级计算机不是关于任何特定的体系结构,而仅仅是处于计算性能前沿的设计。 如今,这意味着该系统可以在LINPACK基准测试的petaflops(或FLOPS的四千万)性能范围内运行。

不管超级计算机如何实现这些FLOPS,任何超级计算机体系结构的低级目标都是在有工作要做时以最佳方式保持计算资源繁忙。 类似于CDC 6600外围处理器(为了保持其单个CPU繁忙而存在),现代超级计算机需要相同的基本功能。 让我们看一下这样一种计算节点资源管理的实现,称为资源管理的简单Linux®实用程序 (SLURM)。

简而言之

SLURM是用于大型计算节点群集的高度可扩展且容错的群集管理器和作业调度系统。 SLURM维护一个待处理的工作队列,并通过该工作管理资源的整体利用率。 它还以排他或非排他的方式(根据资源需求的功能)管理可用的计算节点。 最后,除了监视并行作业的完成之外,SLURM还将作业分配到一组分配的节点以执行该作业。 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值