在100,000个核心集群上运行100万个作业

随着客户在更大的环境中部署OpenLava。可扩展性,吞吐量和性能变得越来越重要。为了满足这些领域的客户需求,OpenLava 提供了一些重要的增强功能:

o  并行化作业事件处理以加速集群启动并最小化停机时间。

o   增强的守护进程间通信,提高效率和性能。

o   其他调整参数,为集群管理员提供其他工具,以提高性能,响应速度和可扩展性。

在发布OpenLava之前,天云软件使用HPC Cluster-as-a-Service在100,000个内核组成的集群上进行了大规模测试,这是我们迄今为止进行过的最大的测试。

测试的目的是证明:

  • OpenLava可以管理大规模工作负载 – 1,000,000个作业跨越近100,000个内核。
  • OpenLava可以处理EDA(电子设计自动化)仿真环境(平均运行时间大约为4分钟)中常见的大型工作负载模式类型。
  • OpenLava可以快速调度作业并响应用户命令,即使在负载非常高的时段。
  • OpenLava可以大规模实施复杂的资源共享策略(例如,fairshare),以增加现实性。
  • OpenLava可以可靠地运行大型工作负载,而无需丢失作业,这是业务关键型模拟环境的基本要求

测试环境

为了进行测试,使用HPC Cluster-as-a-Service产品在Amazon Web Services上提供了由大约100,000个核心组成的1,000个节点集群。使用HPC集群可以大幅节省时间和精力。使用Amazon c4.xlarge计算机类型(4个vCPU,内存为7.5 GB)配置主主机,其余999个计算主机均配置为t2.micro实例(1个vCPU,1 GB RAM),以降低成本。

每个t2.micro主机在OpenLava下配置了100个作业插槽,使其从OpenLava调度程序的角度看来与具有100个核心的鲁棒计算主机相同。

此外,在更稳健的主机上配置了20个作业插槽,以允许作业运行。

由于在大型环境中,AWS提供的三个主机无法启动。而不是花费时间排除类似于AWS瞬态错误的失败主机,总共99,620内核进行了测试:

  • 每个计算主机有100个插槽,共99,600个模拟核心。
  •  主机上有20个可用内核。

在AWS上自动配置OpenLava集群后,对OpenLava配置文件进行了其他更改以支持测试。

Begin UserGroup

GROUP_NAME GROUP_MEMBER USER_SHARES

G(all)([default,1])

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值