HPC集群是什么?百度智能云CHPC给出答案

高性能计算(HPC)集群指运行高性能计算的节点集合,一个 HPC 集群可能包含数十到数千台计算节点。HPC 集群可以提供单节点不能提供的强大计算能力,拥有高性能、弹性扩展、稳定可靠等优点。HPC集群能够提供远超单个计算机的处理能力,因此非常适合需要大量计算资源和数据处理的任务。

本文将简单介绍集群涉及的基本概念和百度智能云 CHPC 的功能。

一. 集群类型

集群可以根据其部署和管理方式大致分为几种类型,特别是在云计算环境中,集群类型主要包括公有云集群、私有云集群和混合云集群。下面,我将介绍公有云集群和混合云集群的概念、功能以及它们的优势。

1.公有云集群

公有云集群是指在公有云平台上部署的集群资源,这些资源由第三方云服务提供商(如百度智能云、腾讯云、天翼云等等)管理和维护。用户通过互联网连接到这些资源,并按需支付使用费用。

  • 弹性扩展:用户可以根据需求快速增加或减少计算资源,高度可扩展和灵活,适合需求波动大的应用。

  • 成本效率:只需为实际使用的资源付费,维护和升级由云服务提供商负责,减轻了企业的IT管理负担,避免了本地数据中心的前期投资和维护成本。

  • 全球访问:用户可以在全球任何地点访问公有云服务。

  • 多样的服务和工具:公有云通常提供广泛的服务和管理工具,帮助用户轻松管理和部署应用。

2.私有云集群

私有云集群是部署在企业内部或专门设施中的云计算资源,这些资源完全由企业自己控制和管理。私有云提供了对硬件、数据存储和网络的完全控制,通常用于处理敏感数据或满足特定的业务需求。

  • 高安全性需求:对于那些处理敏感数据或需遵守严格隐私政策的企业,如金融机构、医疗保健提供者和政府机构,他们通常选择私有云以确保数据安全和合规。

  • 特定的业务应用:某些企业可能需要为特定的业务应用定制云环境,以支持特定的操作系统或应用程序配置,私有云提供了必要的可定制性。

  • 大数据处理和分析:企业需要处理和分析大量的敏感数据时,私有云可以提供必要的计算能力和数据保护。

  • 技术控制和独立性:对于希望完全控制其 IT 基础设施的企业,私有云提供隔离的环境,使得企业能够自主决定技术更新周期、数据管理策略和安全措施。

3.混合云集群

混合云集群结合了私有云和公有云的特点,允许数据和应用程序在两者之间移动,为企业提供更大的灵活性和数据部署选项。

在传统的 IT 投资思路下,企业通过自建 HPC 集群满足业务需求,这导致了巨大的设备采购、维护和更新成本。百度智能云 CHPC 提供了混合云 HPC 集群能力,可以帮助企业统一纳管本地和多云 HPC 集群。企业可以将最关键的任务提交至使用最新一代硬件资源的云上 HPC 集群中,使得这些应用处于最佳运行状态。

  • 灵活扩展:混合云集群提供公有云的灵活性和扩展性,同时保留私有云的控制权和安全性。

  • 资源最优配置:允许企业灵活应对变化,实现 IT 资源的最优配置。

  • 成本优化:根据计算需求的重要性和敏感性,智能地分配资源,优化成本。

  • 安全性和合规性:敏感数据可以在私有云中处理,以满足安全和合规要求,而其他不敏感的处理可以利用公有云的高扩展性和成本效率。



二. 百度智能云 CHPC

云高性能计算平台 CHPC 集群中的每个节点是一台 BCC 实例。一个 HPC 集群可能包含数十到数千台计算节点。
按节点功能分类,可以分为 登录及管控节点、计算节点。各节点功能如下表所示:

1.登录及管控节点

用于远程登录集群,进行操作包括软件调试、编译和安装,以及作业提交等。

用于管理集群,部署调度服务和域账号服务。

  • 调度服务:主要作用是运行 Slurm 等调度工具的服务端,处理作业提交、管理调度等。

  • 域账号服务:集中管理 CHPC 集群内用户信息。

重要:管控节点负责作业的管理调度和域账号解析,在管控节点谨慎进行编译软件、上传下载打包数据等操作,以免影响业务稳定性。

2.计算节点

用于执行高性能计算作业的节点。

对于不同规模的集群,建议的管控节点配置和作业执行数量如下:

2.1 调度器

调度器是集群上调度作业的软件。CHPC支持的调度器如下:

2.2 域账号服务

域账号服务用于管理集群用户。

CHPC 支持 LDAP 域账号服务:

  • LDAP:轻型目录访问协议(Lightweight Directory Access Protocol),在 CHPC 中,LDAP 被用来对用户进行身份权限认证。您可以在 LDAP 中对用户进行授权,分组,以创建具有不同的访问权限的用户。

2.3 共享存储

CHPC 集群的用户数据、调度器信息、作业共享数据等信息均会存储在文件系统,以供集群所有节点共享访问。

CHPC 支持支持 CPFS-NFS 方式挂载 CFS 文件系统。

2.4 用户

创建集群用户后,您才能在集群上提交、调试、运行作业。您可以创建两种不同权限的用户来使用集群。

  • 普通权限组:适用于只有提交、调试作业需求的普通用户。

  • sudo 权限组:适用于需要管理集群的管理员,除提交、调试作业外,还可以执行 sudo 命令进行安装软件、重启节点等操作。

  • 重要 root 用户仅能在创建集群时初始化创建,不推荐使用 root 用户提交任何作业,避免作业脚本中的误操作导致 CHPC 集群数据遭受破坏。 更多信息,请参见创建用户。

2.5 集群状态

  • 创建中:集群创建初始状态,对应 BCC 实例创建和安装软件状态。

  • 运行中:集群创建完成后处于正常可用状态。

  • 异常:当管理节点被删除或停止、调度器软件退出时,集群状态为异常。您可以尝试修复集群,若修复无效后,请提交工单。

  • 释放中:集群在停机释放过程中。

欢迎大家了解 CHPC

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值