slurm资源监控_使用SLURM优化超级计算机中的资源管理

最新推荐文章于 2024-07-16 16:57:08 发布

cuxiong8996

最新推荐文章于 2024-07-16 16:57:08 发布

阅读量3k

点赞数

文章标签： linux java 大数据编程语言 python

原文链接：https://www.ibm.com/developerworks/opensource/library/l-slurm-utility/index.html

版权

本文介绍了SLURM，一种用于大型计算节点集群的资源管理和作业调度系统，广泛应用于超级计算机。SLURM维护工作队列，高效管理计算资源，支持灵活的配置和扩展。通过配置文件和命令行工具，可以轻松安装和管理SLURM集群，适用于各种高性能计算场景。

摘要由CSDN通过智能技术生成

slurm资源监控

与蒂姆联系

蒂姆是我们最受欢迎和最多产的作家之一。在developerWorks上浏览Tim的所有文章。查看Tim的个人资料，并与他，其他作者以及developerWorks社区中的其他开发人员联系。

超级计算机是军备竞赛的经典例子。当现代超级计算机的性能不断提高扩展到新的问题领域时，这些庞大的系统为解决新问题提供了平台。随着公司和国家努力提高LINPACK分数，超级计算机成为国家和公司荣誉的来源。图1说明了超级计算机军备竞赛的过去五年，其中IBM Sequoia超级计算机是当前预计的2012年领导者。如图所示，IBM Roadrunner是第一台突破持久petaflops障碍的超级计算机（IBM BlueGene®/ L保持了领先地位）。从2004年到2008年排名第一）。

图1.超级计算机性能：2008-2012年

早期的超级计算机被设计用来模拟核武器。如今，它们的应用变得更加多样化，解决了气候研究，分子建模，大规模物理模拟甚至暴力破解代码领域中的大量计算问题。

1964年至今

LINPACK基准是什么？

为了比较竞争对手的超级计算机的性能，创建了LINPACK性能基准。 LINPACK测量浮点运算的执行率。特别是，LINPACK是一组程序，可以解决线性方程组的稠密系统。

第一台超级计算机通常被认为是1964年发布的Control Data Corporation（CDC）6600（由Seymour Cray设计）。 6600在四个机柜中装有硬件，氟利昂冷却系统和一个能够每秒进行300万次浮点运算（FLOPS）的CPU。尽管并不缺乏美观性，但其机柜中显然充满了彩色导线，将其外围单元处理器与单个CPU捆绑在一起，以使其尽可能保持繁忙。

快进到今天，当前的超级计算机领导者是日本的Kei计算机（由Fujitsu制造）。该系统使用分散在864个机柜中的88,000多个SPARC64处理器，专注于强力计算能力。 Kei超级计算机的独特之处在于打破了10 petaflop的壁垒。与CDC 6600相似，Kei不仅使用水冷，还使用水冷。

什么是超级计算机？

超级计算机不是关于任何特定的体系结构，而仅仅是处于计算性能前沿的设计。如今，这意味着该系统可以在LINPACK基准测试的petaflops（或FLOPS的四千万）性能范围内运行。

不管超级计算机如何实现这些FLOPS，任何超级计算机体系结构的低级目标都是在有工作要做时以最佳方式保持计算资源繁忙。类似于CDC 6600外围处理器（为了保持其单个CPU繁忙而存在），现代超级计算机需要相同的基本功能。让我们看一下这样一种计算节点资源管理的实现，称为资源管理的简单Linux®实用程序（SLURM）。

简而言之

SLURM是用于大型计算节点群集的高度可扩展且容错的群集管理器和作业调度系统。 SLURM维护一个待处理的工作队列，并通过该工作管理资源的整体利用率。它还以排他或非排他的方式（根据资源需求的功能）管理可用的计算节点。最后，除了监视并行作业的完成之外，SLURM还将作业分配到一组分配的节点以执行该作业。 <

最低0.47元/天解锁文章

cuxiong8996

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫