HPC集群调度系统和计算系统

什么是计算云?

        所谓的计算云指的是为计算业务优化的类云基础架构,它强调用云的方式解决计算问题,而不是将“计算”搬到现有的公有云或者容器云上。

目前公有云或者容器云(例如k8s)上的HPC解决方案本质上都是将现有的HPC方案虚拟化或容器化,以虚拟机或容器替代物理机。这些做法是为了将公有云资源卖给计算用户,并没有改进计算业务本身。(公有云只是将资源标准化和虚拟化,对比直接调度物理机只是多个了标准化,但实际上传统hpc 使用cgroup本质上是一样的)

        LSF,SGE、PBS或者SLURM是传统的HPC的调度系统,将它们做成虚拟机部署到公有云,或者做成容器部署到k8s,可以让多种框架共享物理硬件。但是这种共享是静态的。典型的使用方式是:系统管理员在云上或者k8s上拉起一个SLURM集群;用户通过SSH登录到集群,使用传统的方式安装软件、投递任务。这种使用方式得到的好处是什么呢?一是不需要为每个集群单独购买硬件,二是系统管理员的集群部署工作得到了简化,其它方面没有改进。

传统HPC调度系统

        关于目前主流的HPC作业调度系统有:LSF/Slurm/PBS/SGE,他们分别也都有一些衍生版本,所以,有人也将他们称为四大流派。 .

       不同的行业因为使用习惯和不同调度器对应用的支持力度不同,往往有不同的偏好:比如高效和超算经常用Slurm,半导体公司最常用的是LSF和SGE,工业是早kennel用PBS更多一些。

      

640.png

并行作业计算层

一个并行作业会在多个计算节点上,启动应用程序,所有应用程序通过彼此交换信息,相互合作,共同完成计算任务。典型的有历史的并行计算技术有MPI,更现代一些的Hadoop,Spark等也可以归于此类。一般作业只需要一个slot用来计算。在LSF中,一个slot默认对应CPU的一个计算核心(core),但它本身更偏向于一个逻辑概念。因为想不到合适的中文替换,所以沿用英文词。并行作业因为需要同时启动若干程序,会需要更多的slots。这些slots可以跨越机器,所以我们需要更详细的计算节点选择的方式。

LSF和SLM等和spark、hdoop等的区别

        Spark 应用程序需要分布式计算节点,大型内存,高速网络和无文件系统依赖关系,因此 Spark 应用程序可以在传统 HPC 环境中运行。LSF只是做任务的调度和集群资源的分配,Spark还有hdoop这些分布式计算框架是利用分布式文件系统,一起来跑一个mapreduce任务,因此spark是可以做为lsf的一种任务调度的。此时可以说spark集群是不是在lsf集群内部的。

如果你看IBM LSF的说明,是对apache hadoop和spark做了兼容的。

hadoop和spark(提供更多的是用于数据处理和转换的工具)也提供类似的调度能力,但是只针对自己的集群,并且没有lsf调度策略梗多样化,lsf能保证多集群资源利用的全局最优。

https://www.ibm.com/docs/zh/spectrum-lsf/10.1.0?topic=101-job-scheduling-execution

1、https://tech.china.com/article/20210701/072021_817803.html 

2、https://tonguebusy.com/a/yunying/xiaohongshuyunying/2023/0418/18464304.html

3、亿万打工人的梦:16万个CPU随你用 - 知乎 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您好!对于搭建 Linux HPC(高性能计算集群,以下是一般的步骤: 1. 硬件准备: - 购买适当的服务器和网络设备。 - 确保服务器具有足够的计算能力和存储空间。 2. 操作系统选择: - 选择适合 HPC 集群的 Linux 发行版,如 CentOS、Ubuntu Server 或者 Red Hat Enterprise Linux(RHEL)等。 3. 网络架构规划: - 设计网络拓扑结构,包括子网划分、IP 地址分配等。 - 设置网络交换机和路由器,确保良好的网络连接。 4. 安装和配置操作系统: - 在每个服务器上安装选择的 Linux 发行版。 - 配置网络设置和基本系统设置,如主机名、域名解析等。 5. 文件系统和共享存储: - 选择合适的文件系统,如 Lustre、GPFS 等。 - 配置共享存储,确保所有节点对共享文件系统的访问。 6. 软件安装: - 安装并配置 HPC 软件栈,如 MPI(消息传输接口)、OpenMP(开放多处理)等。 - 安装作业调度器,如 Slurm、PBS(Portable Batch System)等。 7. 集群管理工具: - 配置集群管理工具,如 Ganglia、Nagios 等,以监控集群的性能和健康状态。 8. 测试与优化: - 运行一些基准测试来评估集群的性能。 - 根据测试结果进行调优,如调整网络设置、优化作业调度策略等。 以上是一般的搭建步骤,具体的搭建过程可能会因集群规模、硬件和软件选择等而有所不同。希望能对您有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值