[HPC入门] 高性能计算 (HPC) 是什么?哪些业务场景需要HPC?

本文详细阐述了高性能计算(HPC)的概念、工作原理、重要性、优势以及在云计算、AI和大数据融合中的角色。讨论了HPC的部署模式、挑战和选择云环境的关键要素。文中还列举了多个HPC集群的实际案例,展示了HPC技术的发展现状和未来展望。
摘要由CSDN通过智能技术生成

高性能计算 (HPC) 是指通过聚合计算能力来提供比传统计算机和服务器更强大的计算性能。高性能计算 (HPC) 或超级计算和日常计算一样,区别只在于它的计算能力更强大。它能够通过聚合结构,使用多台计算机和存储设备,以极高速度处理大量数据,帮助人们探索科学、工程及商业领域中的一些世界级的重大难题。

如今,HPC 用于解决复杂的性能密集型问题,而且越来越多的企业开始将 HPC 负载迁移至云端。云端 HPC 正在改变产品开发和研究的经济性,因为它需要更少的原型,有助于加速测试,缩短上市时间。

图片

什么是高性能计算/ HPC

High Performance Computing, HPC是一种技术,它使用并行工作的强大处理器集群,处理海量多维数据集(大数据),并以极高的速度解决复杂问题。不用把HPC理解成一个系统或者超级计算机,就理解成并行计算、集群计算以及网格分布式计算技术就好。 HPC 非常适合需要高性能数据分析的各种应用程序,例如高频交易、仿真模拟、计算机辅助设计、机器学习和深度学习等。

高性能/HPC到底是指什么

【简单说】一般认为HPC 系统的运行速度通常要比商用台式机、笔记本电脑或服务器系统快一百万倍以上。

当我们谈论高性能计算时,性能一般是指计算系统及时处理大量数据或进行复杂计算的能力。 HPC 系统通常设计用于处理极大的工作负载并高速执行计算,这使非常适合科学研究、金融建模和其他计算密集型任务等应用程序。在衡量 HPC 系统的性能时,通常会考虑几个因素,包括:

  • 处理器性能:指系统中中央处理器(CPU)或图形处理器(GPU)的处理能力。 HPC 系统通常使用多个并行工作的处理器来提高处理能力。

  • 内存性能:这是指系统内存(RAM)的速度和容量。 HPC 系统通常需要大量内存来支持复杂的计算和大型数据集。

  • I/O 性能:这是指数据可以从系统的存储设备输入和输出的速度。 HPC 系统通常需要高速存储设备来支持大型数据集的快速处理。

  • 网络性能:这是指连接 HPC 系统各个组件的网络的速度和容量。 高速网络在 HPC 系统中对于支持多个处理器和存储设备之间的通信至关重要。

  • 小结一下,在 HPC 中性能是一个多方面的概念,涵盖了很多因素,包括处理器、内存、I/O 和网络性能。HPC 系统的目标是优化所有这些因素,为需要执行的特定任务或应用程序提供最高级别的性能。

HPC 的工作原理是什么?

在实际应用中,有一些负载(例如 DNA 测序)对于任何一台计算机来说都过于庞大。对此,HPC 或超级计算环境可以使多个节点(计算机)以集群(互联组)的形式协同作业,在短时间内执行海量计算,从容应对这些规模庞大而又极其复杂的负载挑战。此外,由于支持在云端自动创建和删除集群,HPC 还能有效降低负载成本。

HPC 支持多种类型的负载,其中最常见的两种负载是并行负载和紧密耦合负载。

并行负载

并行负载指被细分为多个小型、简单、独立任务的计算问题,这些任务可以同时运行,通常相互之间几乎没有通信。例如,一家企业可能向某节点集群中的各个处理器核心提交了 1 亿条信用卡记录。其中,处理一条信用卡记录即是一项小任务,当 1 亿条记录分布在整个集群上时,1 亿个小任务就能以惊人的速度同时(并行)执行。并行负载的常见使用场景包括风险模拟、分子建模、上下文搜索和物流模拟。

紧密耦合负载

紧密耦合负载通常占用较多的共享资源,并分解为相互之间持续通信的小任务。换言之,集群中的各个节点在执行处理时会相互通信。紧密耦合负载的常见使用场景包括计算流体动力学、天气预报建模、材料模拟、汽车碰撞仿真、地理空间模拟和交通管理。

HPC 为何重要?

数十年来,HPC 一直在学术研究和行业创新中扮演着重要角色。它帮助工程师、数据科学家、设计师和其他研究人员更经济、更高效地解决了许多大型复杂问题。

HPC 的主要优势包括:

降低物理测试需求:HPC 可用于创建仿真,而无需用户进行物理测试。例如在测试汽车事故时,与实际碰撞测试相比,HPC 可以更加经济、便捷地生成碰撞模拟。

速度:基于最新 CPU、图形处理单元 (GPU) 和诸如 RDMA(远程直接内存访问)的低延迟网络结构,以及全闪存本地存储和块存储设备,HPC 可以在数分钟内完成以往需要数周才能完成的大量计算。

成本:HPC 可以更快速、更低成本地提供答案。此外,借助基于云的 HPC,即使是小型企业和初创企业也能轻松运行 HPC 负载 — 只需为实际使用的资源付费且可按需扩展和收缩。

创新:HPC 推动了几乎每一个行业发展创新,是突破性科学发现得以问世,改善全球人民生活质量的重要驱动力。

HPC 的部署模式有哪些?

HPC 可以在本地、云端或混合模式下运行。

在本地 HPC 部署下,企业和研究机构可构建一个由服务器、存储解决方案和其他基础设施构成的 HPC 集群,并自行管理和升级。在云端 HPC 部署下,云服务提供商负责管理基础设施,企业和研究机构可以直接使用并按用量付费。

另外,一些企业会选择混合部署模式,尤其是已经投资购置了本地基础设施,但又希望获得云部署的速度、灵活性和成本节省优势的企业。当本地部署中的排队时间过长时,它们就会使用云来运行 HPC 负载,按需使用云服务。

本地 HPC 部署面临哪些挑战?

本地部署模式下,企业可以全面掌控 HPC 运行,但同时也面临一些挑战,包括:

投入大量资金购置和持续升级计算设备

支付日常管理和其他运营成本

用户需要排队几天或几个月的时间才能运行自己的 HPC 负载,尤其是在需求激增时

采购周期较长,难以及时升级至功能更强、效率更高的计算设备,导致研究和业务发展速度受到影响

由于本地部署的高昂成本和许多其他挑战,云端 HPC 部署正日益普及。Market Research Future 预计,全球云服务市场在 2017 年到 2023 年间将以 21% 的速度增长。在云端运行 HPC 负载时,企业不仅只需为实际使用的资源付费,而且还可以按需扩展或收缩。

很多云提供商专门为 HPC 负载构建技术解决方案,以避免本地 HPC 设备老化带来的性能下降。它们提供最新、最快的 CPU 和 GPU、低延迟闪存存储、高速 RDMA 网络、企业级安全性以及全天候服务可用性,确保最大限度降低甚至消除排队时间。

HPC 云 — 选择云环境要考虑哪些关键要素?

就在十年前,HPC 的高昂成本还令大多数组织对其望而却步,这涉及到拥有或租赁一台超级计算机,或在内部数据中心构建和托管 HPC 集群。而如今,云中的 HPC,也称为 HPC as a Service (HPCaaS),为公司利用HPC 提供了一种更快捷、可扩展且更经济的方式。 HPCaaS 通常包括访问云服务商托管的 HPC 集群和基础架构,配套HPC服务及云上各种服务(如 AI 和数据分析)。

目前市场上各个云提供商的实力不尽相同,某些云并非专为 HPC 而设计,无法在负载高峰期提供最佳性能。因此,在选择云提供商时,请重点考察以下 4 点:

强大性能:您的云提供商应当能提供最新一代的处理器、存储和网络技术,提供可达到或超出典型本地部署水平的 HPC 能力和超强性能。

丰富的 HPC 经验:您的云提供商应当具备为各种客户运行 HPC 负载的丰富经验,能够在高峰时段(例如运行多个仿真或模型时)提供最佳性能。在很多情况下,裸金属计算实例相比虚拟机可提供更加稳定、一致、强大的 HPC 性能。

灵活迁移:您的 HPC 负载应当能够像在本地一样在云端运行。在将负载“原样”迁移至云之后,您在下周运行的模拟应与十年前运行的模拟结果一致。在需要使用相同的数据和计算方法进行年度比较的行业中,这一点极其重要。例如,如果空气动力学、汽车和化学的计算方法没有改变,那么无论什么时候同一模拟的结果都不应有任何不同。

无隐性成本:云服务通常采用“按使用付费”模式,请确保您准确理解云提供商的定价信息。许多用户经常对出站数据移动或数据传出成本感到惊讶,原因就在于用户可能知晓需要为每一个事务和数据访问请求付费,但是很容易忽略传出成本。

HPC系统和超级计算机有什么关系

HPC(高性能计算)和超级计算机这两个术语经常互换使用,并且没有明确的定义来区分它们。 一般来说,超级计算机被认为是最大、最强大的 HPC 系统类型。在硬件方面,超级计算机通常具有大量计算节点和高速互连,以及 GPU 或 FPGA 等专用处理器。 它们还可能包括用于加速特定类型计算的专用硬件,例如量子计算或人工智能。

超级计算机通常用于需要大量处理能力、内存和存储的科学和技术计算应用程序。 示例包括气候建模、天体物理学模拟和药物发现。总的来说,虽然 HPC 和超级计算之间没有明确的区别,但超级计算机通常被认为是最大和最强大的 HPC 系统类型,用于要求最苛刻的科学和技术计算应用程序。

典型的HPC集群规模

2022年12月中国高性能计算学术年会(CCF HPC China 2022)上发布了一份《开放架构HPC技术与生态白皮书》[ii]。里面记录了19个用户ARM架构HPC平台的规模,我摘录几个用户的情况你自己感受一下。

用户

平台规模

平台软件

其他

上海交通大学“交我算”校级计算平台

“交我算”鲲鹏超算共100个计算节点,节点采用双路华为鲲鹏920处理器(64核),每个计算节点拥有128核处理器和256GB内存,总计12800核,系统的理论双精度峰值性能达133TFLOPS

提供18款常用的高性能计算软件开放使用,覆盖了材料科学、生命科学、大气科学和流体力学4大高性能计算应用领域

鲲鹏集群的平均利用率约为41.2%,共服务了校内74个课题组,计算作业数量超100万个

兰州大学超算中心鲲鹏HPC集群

2020年6月投入使用,一共20个节点,每个节点采用两颗华为鲲鹏920处理器,每颗主频2.6GHz,48核心,512GB内存,总核数1960,节点之间为100Gb InfiniBand计算网络

目前集群上部署过气象预测模式软件WRF、CESM、NEMO,分子动力学软件GROMACS、LAMMPS、AmberTools、NAMD、CP2k,第一性原理软件Quantum Espresso,生物信息软件BUSCO、HMMER、Bamtools、Trimmomatic、Mmseqs Repeatmasker、Bwa、Griaffe、Gemoma、Samtools、PASA、vg pack等。

中国科学技术大学超级计算中心瀚海20超级计算系统

20台华为Taishan 2280V2服务器,每台含有2颗鲲鹏920 CPU (48核,2.6GHz),256GB DDR4 2666MHz内存,采用100GE(支持RoCE)高速互联,共1920颗核心,峰值性能40万亿次/秒。该套系统于2019年底建成。

目前在用账户102个,涉及物理学、材料科学、核科学、信息科学、地学等,从2020年至今,共完成作业35万个,累计860万CPU核小时

国家超级计算天津中心

天河新一代超级计算机

国家超级计算深圳中心(深圳云计算中心)

深圳超算总投资12.3亿元,一期建设用地面积1.2万平方米,总建筑面积4.3万平方米。深圳超算配置有国产曙光6000超级计算机系统,2010年6月世界超算TOP500排名第二,运算速度达每秒1271万亿次

近十年来,累计服务三万个以上用户团队,完成各类计算任务逾千万个,完成15亿核小时计算,服务企事业单位和科研院所过万家,拟构建深圳超算二期E级超级计算机

国家超级计算长沙中心

中心基于国内新一代超算先进技术,采用可配置柔性体系结构和高速互连等关键技术,部署了“天河”新一代主机系统。计算部件采用国产ARM指令集兼容架构CPU和迈创-3000加速器。系统包含计算处理、服务处理、互连通信、全局存储、监控诊断、基础架构和辅助算力系统等部分。系统64位通用超算精度不低于200P Flops,系统磁盘总容量不少于20PB,点点双向通信带宽不低于400Gbps。

HPC的技术核心

标准计算系统主要使用串行计算来解决问题,它将工作负载分成一系列任务,然后在同一处理器上依次执行这些任务。相比之下,HPC 则利用大规模并行计算在多个计算机服务器或处理器上同时运行多个任务。

计算机集群( HPC 集群)由多个联网的高速计算机服务器组成,并有一个集中式调度器来管理并行计算工作负载。 这些计算机被称为节点,使用多核 CPU,也可能包括 GPU,通过高性能组件把HPC 集群中的所有其他计算资源(网络、内存、存储和文件系统)高速、高吞吐量、低延迟的连接和同步起来,并行、高效完成计算任务,实现高性能。

HPC 的核心技术是使用并行计算以大规模并行的方式解决复杂的计算问题,几个在 HPC 系统中实现并行计算的关键技术,如多核处理器、并行编程框架、高速互连、分布式文件系统和加速器等软硬件技术,实现高水平的性能和处理能力。

HPC系统软件情况

HPC系统软件包括:

图片

  • 操作系统,通常是Linux/Unix

  • 系统管理,提供集群完整供应、管理和监控等功能

  • 计划程序或工作负载管理,调度器根据优先级、策略和队列来管理作业,以实现最佳的资源利用率。

  • 应用软件开发生态系统

  • 编程软件环境,包括编译器、库、性能库和具有特定调优功能的消息传递并行编程环境等

  • 网络结构软件

  • 存储文件系统

  • 存储基准

  • 远程可视化或远程计算,支持对模拟建模进行交互式或近实时监控,尤其适用于执行 3D 渲染的繁重图形任务。

  • HPC 数据管理, 涉及数据管理全过程,包括数据采集、存储、元数据管理、层次结构、分层、访问、共享、传输、迁移、传输、跟踪、压缩、加密、安全、ETL、保存、治理、备份、冗余和恢复等

  • 生产力工具

  • 融合、超融合和可组合的基础设施 

HPC应用软件

图片

建模与仿真(M&S),创建和开发设计以测试系统、现象和过程的物理世界中的假设,以验证技术决策。通过图形和计算机编程、统计分析、2D 和 3D 以及更高维度的虚拟或增强现实模型,在现实条件下对设计进行测试。

图片

  • 工程,比如计算流体动力学 (CFD) 仿真模型适用于工程(空气动力学、航空航天分析、超音速、工业设计、传热、发动机和燃烧设计)、汽车设计(隧道)、自然科学(天气模拟和预测)、环境工程(空气污染)、生物工程(细胞、分子、组织、系统模拟)、电影和游戏行业的视觉效果。

  • 生物信息学、医疗保健、制药, 旨在从生物数据库中提取有意义的信息以进行序列或结构分析
  • 零售和商业银行和保险企业,量化高频交易、金融客户个性化 (FCP) 业务、风险管理投资组合模拟和情景测试、实时金融模型风险管理 (MRM)等

  • 量子计算(QC)

  • 人工智能(AI),  HPC 应用已成为 AI 应用的代名词,尤其是机器学习和深度学习应用。AI 与 HPC 的融合推动了机器学习 (ML) 和深度学习 (DL) 软件纳入 HPC 软件堆栈。 神经网络算法需大量数据,训练数据集庞大,ChatGPT的火爆一定程度上后续会进一步推动HPC算力需求的提升[iii]。

HPC展望

如今很多行业的企业和机构纷纷开始采用 HPC 来推动业务增长,这一趋势预计将持续多年。到 2023 年,全球 HPC 市场预计将从 2017 年的 310 亿美元增长至 500 亿美元。其中,大部分增长将来自云端 HPC 部署。得益于云性能的持续发展,云将变得更可靠、更强大,云端 HPC 部署将让企业无需投入数百万美元的数据中心基础设施和相关成本。

此外,在不久的将来,HPC 有望与大数据融合,即通过同一大规模计算机集群来分析大数据,运行模拟和其他 HPC 负载。而随着这两种趋势的融合,HPC 的计算能力和容量将变得更加强大,将更有力地推进更具突破性的研究和创新。

HPC与 AI、大数据、数据分析和量子计算的融合加速了基础设施整合,以实现从小规模、中型到EB规模的最佳性能/成本比,并创造出以前没有涉及的新HPC业务市场。

IT从业者来说,HPC 存储和数据管理需更全面、更深入的研究,以便在数据处理、数据集成、数据保护和安全、数据工作流管理以及本地、公有云和混合环境等方面来进行改进、细化和简化。

计算、存储、应用程序和基础架构的 HPC 性能基准和指标缺乏标准化,这为供应商和从业者提供市场及研究的机会。

图片

好啦,以上就是今天文章的全部内容。感谢大家的耐心阅读!您的关注、点赞、收藏是我创作的动力。

万水千山总是情,点个 👍 行不行。

  • 19
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值