介绍
OpenLava是一个开源的,IBM Platform LSF工作量兼容管理器,可以安排串行和并行作业。MPI(消息传递接口)是高性能计算(HPC)应用中广泛使用的编程接口,用于并行化大规模问题的执行。有多个常用的MPI实现。本文档介绍如何使用OpenLava运行MPI应用程序。
大多数MPI实现支持与常用工作负载管理器的集成。在大多数情况下,这些集成使用工作负载管理器特定的远程任务启动器来启动和监视在集群主机上执行的MPI任务。此方法的主要目标是使工作负载管理器能够跟踪和控制组成MPI作业的进程。一些工作负载管理器,如IBM Platform LSF,使用这样的工具来跟踪MPI任务的CPU和内存使用。
在理想状态下,启动和管理MPI任务的过程将在所有工作负载管理器和MPI实现中保持一致。在实际情况中,事情并不是那么简单。考虑到创新的速度,流行的开源MPI实现(如OpenMPI)和不同版本的工作负载管理器的快速发布周期,HPC环境本质上很复杂,有许多移动部件,这对并行工作负载尤其如此。通过简化方法,使MPI作业在工作负载管理器的控制下可靠且可预测地运行,可以大大有助于缓解一系列潜在问题,使HPC环境更具可靠性。
在OpenLava中运行MPI作业
通常情况下,最好的解决方案通常是最简单的解决方案。使用OpenLava运行MPI作业的建议方法是使用ssh作为远程任务启动器,原因如下:
- ssh是所有MPI的默认任务启动器,因此它必须在每个版本的MPI实现中进行全面测试。
- <