slurm资源监控
超级计算机是军备竞赛的经典例子。 当现代超级计算机的性能不断提高扩展到新的问题领域时,这些庞大的系统为解决新问题提供了平台。 随着公司和国家努力提高LINPACK分数,超级计算机成为国家和公司荣誉的来源。 图1说明了超级计算机军备竞赛的过去五年,其中IBM Sequoia超级计算机是当前预计的2012年领导者。如图所示,IBM Roadrunner是第一台突破持久petaflops障碍的超级计算机(IBM BlueGene®/ L保持了领先地位)。从2004年到2008年排名第一)。
图1.超级计算机性能:2008-2012年
早期的超级计算机被设计用来模拟核武器。 如今,它们的应用变得更加多样化,解决了气候研究,分子建模,大规模物理模拟甚至暴力破解代码领域中的大量计算问题。
1964年至今
第一台超级计算机通常被认为是1964年发布的Control Data Corporation(CDC)6600(由Seymour Cray设计)。 6600在四个机柜中装有硬件,氟利昂冷却系统和一个能够每秒进行300万次浮点运算(FLOPS)的CPU。 尽管并不缺乏美观性,但其机柜中显然充满了彩色导线,将其外围单元处理器与单个CPU捆绑在一起,以使其尽可能保持繁忙。
快进到今天,当前的超级计算机领导者是日本的Kei计算机(由Fujitsu制造)。 该系统使用分散在864个机柜中的88,000多个SPARC64处理器,专注于强力计算能力。 Kei超级计算机的独特之处在于打破了10 petaflop的壁垒。 与CDC 6600相似,Kei不仅使用水冷,还使用水冷。
什么是超级计算机?
超级计算机不是关于任何特定的体系结构,而仅仅是处于计算性能前沿的设计。 如今,这意味着该系统可以在LINPACK基准测试的petaflops(或FLOPS的四千万)性能范围内运行。
不管超级计算机如何实现这些FLOPS,任何超级计算机体系结构的低级目标都是在有工作要做时以最佳方式保持计算资源繁忙。 类似于CDC 6600外围处理器(为了保持其单个CPU繁忙而存在),现代超级计算机需要相同的基本功能。 让我们看一下这样一种计算节点资源管理的实现,称为资源管理的简单Linux®实用程序 (SLURM)。
简而言之
SLURM是用于大型计算节点群集的高度可扩展且容错的群集管理器和作业调度系统。 SLURM维护一个待处理的工作队列,并通过该工作管理资源的整体利用率。 它还以排他或非排他的方式(根据资源需求的功能)管理可用的计算节点。 最后,除了监视并行作业的完成之外,SLURM还将作业分配到一组分配的节点以执行该作业。 <