o 并行化作业事件处理以加速集群启动并最小化停机时间。
o 增强的守护进程间通信,提高效率和性能。
o 其他调整参数,为集群管理员提供其他工具,以提高性能,响应速度和可扩展性。
在发布OpenLava之前,天云软件使用HPC Cluster-as-a-Service在100,000个内核组成的集群上进行了大规模测试,这是我们迄今为止进行过的最大的测试。
测试的目的是证明:
- OpenLava可以管理大规模工作负载 – 1,000,000个作业跨越近100,000个内核。
- OpenLava可以处理EDA(电子设计自动化)仿真环境(平均运行时间大约为4分钟)中常见的大型工作负载模式类型。
- OpenLava可以快速调度作业并响应用户命令,即使在负载非常高的时段。
- OpenLava可以大规模实施复杂的资源共享策略(例如,fairshare),以增加现实性。
- OpenLava可以可靠地运行大型工作负载,而无需丢失作业,这是业务关键型模拟环境的基本要求
测试环境
为了进行测试,使用HPC Cluster-as-a-Service产品在Amazon Web Services上提供了由大约100,000个核心组成的1,000个节点集群。使用HPC集群可以大幅节省时间和精力。使用Amazon c4.xlarge计算机类型(4个vCPU,内存为7.5 GB)配置主主机,其余999个计算主机均配置为t2.micro实例(1个vCPU,1 GB RAM),以降低成本。
每个t2.micro主机在OpenLava下配置了100个作业插槽,使其从OpenLava调度程序的角度看来与具有100个核心的鲁棒计算主机相同。
此外,在更稳健的主机上配置了20个作业插槽,以允许作业运行。
由于在大型环境中,AWS提供的三个主机无法启动。而不是花费时间排除类似于AWS瞬态错误的失败主机,总共99,620内核进行了测试:
- 每个计算主机有100个插槽,共99,600个模拟核心。
- 主机上有20个可用内核。
在AWS上自动配置OpenLava集群后,对OpenLava配置文件进行了其他更改以支持测试。
Begin UserGroup
GROUP_NAME GROUP_MEMBER USER_SHARES
G(all)([default,1])