在100,000个核心集群上运行100万个作业

最新推荐文章于 2024-07-14 14:37:35 发布

容器技术爱好者

最新推荐文章于 2024-07-14 14:37:35 发布

阅读量1.6w

点赞数 1

分类专栏： HPC 文章标签： HPC openlava 集群开源项目

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/horsefoot/article/details/68940640

版权

本文介绍了OpenLava在大规模集群上进行的测试，该集群包含100,000个核心。测试证明OpenLava能够有效管理大量工作负载，处理复杂资源共享策略，并在高负载下保持高效率和可靠性，无作业丢失。" 131485878,7218555,Halcon一维测量实践：定位与测量详解,"['机器视觉', 'Halcon', '图像处理', '测量技术', '模板匹配']

摘要由CSDN通过智能技术生成

随着客户在更大的环境中部署OpenLava。可扩展性，吞吐量和性能变得越来越重要。为了满足这些领域的客户需求，OpenLava 提供了一些重要的增强功能：

o 并行化作业事件处理以加速集群启动并最小化停机时间。

o 增强的守护进程间通信，提高效率和性能。

o 其他调整参数，为集群管理员提供其他工具，以提高性能，响应速度和可扩展性。

在发布OpenLava之前，天云软件使用HPC Cluster-as-a-Service在100,000个内核组成的集群上进行了大规模测试，这是我们迄今为止进行过的最大的测试。

测试的目的是证明：

OpenLava可以管理大规模工作负载 – 1,000,000个作业跨越近100,000个内核。
OpenLava可以处理EDA（电子设计自动化）仿真环境（平均运行时间大约为4分钟）中常见的大型工作负载模式类型。
OpenLava可以快速调度作业并响应用户命令，即使在负载非常高的时段。
OpenLava可以大规模实施复杂的资源共享策略（例如，fairshare），以增加现实性。
OpenLava可以可靠地运行大型工作负载，而无需丢失作业，这是业务关键型模拟环境的基本要求

测试环境

为了进行测试，使用HPC Cluster-as-a-Service产品在Amazon Web Services上提供了由大约100,000个核心组成的1,000个节点集群。使用HPC集群可以大幅节省时间和精力。使用Amazon c4.xlarge计算机类型（4个vCPU，内存为7.5 GB）配置主主机，其余999个计算主机均配置为t2.micro实例（1个vCPU，1 GB RAM），以降低成本。

每个t2.micro主机在OpenLava下配置了100个作业插槽，使其从OpenLava调度程序的角度看来与具有100个核心的鲁棒计算主机相同。

此外，在更稳健的主机上配置了20个作业插槽，以允许作业运行。

由于在大型环境中，AWS提供的三个主机无法启动。而不是花费时间排除类似于AWS瞬态错误的失败主机，总共99,620内核进行了测试：

每个计算主机有100个插槽，共99,600个模拟核心。
主机上有20个可用内核。

在AWS上自动配置OpenLava集群后，对OpenLava配置文件进行了其他更改以支持测试。

Begin UserGroup

GROUP_NAME GROUP_MEMBER USER_SHARES

G（all）（[default，1]）

最低0.47元/天解锁文章

容器技术爱好者

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。