HPC高性能计算解决方案

HPC行业简介

什么是HPC

HPC是高性能计算(High Performance Computing)
使用很多的处理器或者是某一集群中的几台计算机的硬件资源、计算系统和环境,将大规模的运算任务拆分成很多的小任务分发到各个服务器上并行计算,再将计算结果汇总成最终的一个结果。
在这里插入图片描述
这是一个关于华为云HPC解决方案的介绍:https://bbs.huaweicloud.com/videos/100690

在算力方面,如果说通用计算是家用小轿车,那么高性能计算就是方程式赛车。在算力上是高出通用计算很多的。
第二个是应用场景,比如政府投资的超算中心,企业的CAD、CAE,医疗上的基因测序等,还有石油地质勘探等方方面面都是HPC的应用场景。
HPC+大数据 = HPDA,像大数据能够提供体量巨大的数据集,那么对大体量的数据进行处理的时候就需要用到非常强大的算力,这也是HPC所能提供的。
在这里插入图片描述
HPC涵盖了3个方面:
计算:提供超强算力,可以使用除了一般的计算,还有英伟达p系列,FPGA等进行配合的异构计算加速。

存储:例如视频中提到的Lustre,这是一个开源的并行的分布式文件系统。

网络:由于高性能计算通常是组建集群的形式,在集群当中有多个节点,每个节点之间的任务调度、分配都会对网络提出一定的要求,例如高带宽、低时延。例如IB网络(无线带宽网络技术,现在快的有400GB/s,延迟在微秒级别)

HPC关键技术

在这里插入图片描述
上图是HPC TOP500的统计情况

可以看到在系统架构层面,88.40%是Cluster这种集群的形式,另外的11.60%是MMP的形式。
MPP—是比较紧耦合的,比如说它一台服务器,它可以通过借助其他的CPU来做并行处理。节点数一般大于100以上
Cluster—比较松耦合,比如说这种架构的每个节点都有自己独立的CPU、内存、硬盘等等。节点数一般100以下

然后看处理器这块,在HPC场景下,主流的还是x86架构,当然像华为的KunPeng也是支持HPC相应的软件,不过份额比较少,处于3.4%这块。1%是SPARC,4.6%是Power。

操作系统部分,可以看到Linux占了全部,而没有Windows。因为我们说Linux的稳定性更强,而服务器的稳定性至关重要。

计算加速部分,传统情况下,CPU算力不足以应对复杂场景,所以我们可以通过CPU+GPU或者FPGA的一些方式来增强算力。图中72.4%是CPU,27.6%则是CPU+GPU,借助图形处理器来提升算力。

网络部分,由于每个节点之间需要相互通信,任务的协同处理,所以离不开网络设备,并且对网络的时延、带宽提出了很高的要求。目前50.4%是以太网,27%是IB网络,剩下还有一些其他的网络技术。

通过上图我们可以了解到当前HPC它涉及到哪些关键的技术。

HPC发展趋势

在这里插入图片描述
前面有讲到华为云HPC解决方案,所以HPC支持私有云、公有云还有混合云的部署
HPC云化主要有这几个特点:
1.弹性伸缩,可以根据业务需求进行灵活扩充减少。
2.按需付费,可以对资源进行灵活调度,客户根据当前经济条件、业务需求来购买,降低门槛、投资成本。

E级计算:指的是每秒可以达到的运算次数百亿亿次,图中所展示的是我国的神威太湖之光,它之前蝉联了3届HPC的TOP1。(当时它由48个机柜组成每个机柜有1024个CPU,每天耗电费用达到20万人民币。)

HPC主要应用场景的需求分布

主要从五个维度去看:浮点运算、内存带宽、网络带宽、网络时延、IO
在这里插入图片描述
图中可以看到不同场景下对HPC的五个维度的指标也是不尽相同

由此可以分为内存约束型(大内存、高带宽)、计算密集型(高速CPU)、网络密集型怕(高速网络互联)、IO密集型(高带宽、大容量存储)

挑战和解决方案

HPC面临的行业挑战

  1. 计算需求持续增长:每个人产生的数据逐渐增多,那么业务分析、计算任务就逐渐增多,所以计算的需求也是持续增长的状态。
  2. 使用、部署和管理的门槛高:从上面讲的“太湖之光”也可以了解到,HPC是比较烧钱的,同样管理也需要专门的技术,培养管理人才也是一笔不菲的费用。
  3. 应用多元化:比如上面的图,在气象预测、石油天然气勘探、动画渲染等,他们对HPC各个维度的要求都是不相同的。
  4. 能耗费用持续增长:还是那个“太湖之光”例子,它每天的耗电量达到20万人民币,可以看出HPC的能耗费用是非常巨大的。

HPC解决方案架构

在这里插入图片描述
整个架构一共可以看作是四层

第一层是一些基础设施,比如模块化的数据中心,方便快速组装。还有像液冷,我们通常机房当中用的都是风冷。在HPC场景下由于服务器的功耗很大,产热也多,通过液冷来散热可以降低功耗,降低了功耗就降低了费用,从而降低了运营成本。

第二层是HPC实现的基础:计算、存储、网络。后面我们的解决方案也是围绕这三点展开。比如计算有哪些节点,存储有哪些类型,网络需要有哪些网络平面、它们之间如何互相组网。

第三层在底层基础设备、系统搭好的基础上,涉及到集群管理、作业调度。在操作系统之上,需要有消息传递的通信,各种运算的库,还有编译器等等。

第四层是偏向于行业的各种业务所需要使用的应用,这就我们前面有提到的能源勘探、CAD仿真,基因测序、气象预测等等。

总结:那我们主要关注的是在L2层,计算网络存储怎么去设计。

华为HPC解决方案能力

在这里插入图片描述

首先看底层平台
计算这一块,像ARM处理器也就是鲲鹏920,单个处理器可以提供8通道的内存,所以它的优势相比于x86在于大内存,以及缓存一致性互联技术。

存储这块,它支持Burst Buffer这种向量NAS文件系统。
(解释一下Burst Buffer,例如HDD存储容量大,但是性能差。SSD性能高,但是全用SSD部署成本很高。Burst Buffer,在计算过程当中我们使用性能较高的硬盘(SSD)组成一个缓冲层,那么计算都在都在这种高性能缓冲层当中进行。当计算得到最终结果,再将数据落盘到性能较差、容量较大的硬盘当中(HDD)。)

网络这块,需要低时延就会用到像RoCE、IB(无限带宽技术)等这些技术
(RoCE—允许通过以太网使用远程直接内存访问(RDMA)的网络协议)

同时也支持公有云、私有云、混合云的部署方案

然后第二层中间件
在这一层,华为有自己的MPI和作业调度器。在Taishan服务器上也支持其他一些开源的通用的工具,还有编译器、数学库这些。

第三层就是一些业务应用,涉及到气象预测、工业制造、生命科学这些。

总结:华为HPC的解决能力主要体现在L1和L2当中,L3层是和商业合作伙伴相关的。

比如在计算这边,就可以售卖华为泰山X6000这些高密服务器或者是RH系列的服务器。
目前HPC解决方案大部分是基于x86架构的,那么华为的泰山服务器是支持和x86混合部署的,业务一样可以正常运行、互相兼容。

存储这边,华为有自己的Oceanstore系列企业级的存储。

网络这块,华为也有自己的交换机,例如CE系列交换机、S系列交换机。

HPC硬件平台通用架构

在这里插入图片描述

如图所示
主要也是从三个方面去看
计算、存储、网络

计算当中主要包括以下节点:
计算节点(瘦节点:负责一般计算)
胖节点(具有很高的CPU和内存,例如华为的X6000高密服务器)
加速节点(例如对图像处理的场景下,可以在服务器上插GPU卡来进行应用加速。)
辅助节点(如工作站)
登录节点(如客户端)
管理节点(集群之间需要进行管理)

网络部分,主要分为三个网络平面

高速计算网络:计算平面,用于各个计算节点之间相互通信(就像一个小组内的人员要互相沟通,任务完成的进度之类的。)

存储网络:存储平面,HPC有专门的存储系统,那么集群当中的节点都需要与存储设备进行相互通信,因此需要搭建一个存储网络。

管理网络:管理平面,整个集群之间资源的调度,任务的安排部署都是由管理平面来做的。
管理平面实际上分为两个:
一个是带内的(负责集群间任务协调、分配、管理的平面)
另外一个是带外的(可以通过iBMC进行带外管理,比如上下电等操作)

这样将管理平面分为带内和带外的,管理网络系统和业务系统不共用同一个平面。当业务系统出现故障,管理人员还可以通过带外的管理网络—也就是iBMC登录去登录iBMC的控制台来管理服务器(不然就去需要跑去机房找相应的服务器进行操作了)。(冗余保护的作用)

存储系统
支持NAS、华为Oceanstore9000以及开源的Lustre(行分布式文件系统,通常用于大型计算机集群和超级电脑,目前大部分HPC采用的文件系统都是Lustre文件系统)

总结:以上就是计算、网络、存储,三层的应用架构。

业务流程:(图同上)
第一步安装软件,准备上传数据进行计算。(登录到登录节点上传需要计算的数据,数据上传到管理节点)
第二步,管理节点根据作业调度器分配到计算节点进行计算
第三步,如果在计算的过程当中,需要存储当中的相关数据,那么就需要通过存储网络到存储设备中,拿到相关的数据再返回。
第四步,计算完成后的数据存放在存储设备当中,用户可以从登录节点访问存储获取计算结果。

性能指标
系统效率 = Rmax/Rpeak,(Rmax-实测最大值,Rpeak-理论峰值)

常用组件和技术

计算部分

华为服务器产品
TaiShan服务器
TaiShanX6000,高密服务器,非常大的内存、CPU,适合HPC场景。
TaiShan2280,通用服务器,
TaiShan5280,偏向于存储密集型

鲲鹏920
主要提升在于内存带宽,因为920支持8通道。(一般intel的芯片是6通道的)
所以说,鲲鹏芯片的内存非常大,像HPC场景都需要很大的内存空间,这是920的一个很大优势。

X6000高密服务器
在这里插入图片描述
有两种不同型号,其处理器型号不同,PCIe扩展槽不同,还有就是散热的模式不同。
解释一些词汇
风冷:机房当中空调的风能散热
液冷:能够更好的降低能耗,就是通过一个接口让冷水从服务器内部通道走一圈,带走热量
(华为液冷解决方案视频https://e.huawei.com/cn/videos/cn/older/201412101742)

在这里插入图片描述
上图主要表达的是,鲲鹏920芯片,主要针对的内存带宽敏感型的应用,例如CAE、气象、油气等等。这也是得益于大内存,8通道的特点。
而且HPC场景下很多应用都是属于内存受限型的,即内存限制了业务。所以说鲲鹏的一些处理器就比较适合。

这里与x86架构下,intel的一款处理器做对比
在这里插入图片描述
可以看出,8通道相比于6通道而言,对内存带宽的提升是非常明显的。

以上主要是计算部分

网络部分

在HPC场景下, 由于集群之间需要相互通信,所以对网络的带宽和时延要求是比较高的(应用之间带宽>40Gbps,时延<10us微秒
现有的TCP/IP软硬件结构无法满足该需求
在这里插入图片描述
从这张图上看,数据在传递通过TCP/IP协议进行传输。
首先需要拷贝到OS中进行数据封装,然后再传输到网卡上,通过网卡发送到网络。
包括网络转发也存在一定的时延。
然后到目标主机,也要过网卡的Buffer(缓冲器)当中,然后到OS,再解封装到应用当中。

如何解决?
RDMA技术(Remote Direct Memory Access)
远程直接内存访问
在这里插入图片描述
前面有讲了传统的模式,这里不再赘述
RDMA模式
对数据包的加工都在网卡内完成。因此就跳过了操作系统,直接把数据发送到网卡内,少了应用内存与内核数据之间的交互,所以速度上更快,时延更短。

那么RDMA的体系架构主要有三种
在这里插入图片描述
IB网络(基于无限带宽技术,这种网络有很高的带宽(100Gb/s以上)和非常低的时延(毫秒级))
后面两种是基于以太网的,iWARP—基于传输层的。RoCE分为两种v1和v2,v1作用在数据链路层,允许在同一个广播域内进行相互通信。v2作用在网络层,可以路由。

HPC高速网络拓扑
在这里插入图片描述
类似于上图,采用Spine-leaf架构,可以进行横向的扩展延伸,方便管理。

存储解决方案

在这里插入图片描述
支持OceanStor v3 NAS存储
OceanStor 9000可以搭配IB网络进行使用
支持开源的Lustre并行文件系统,这款也是目前业界主流的HPC场景下的存储,由intel开源出来的。
也支持IBM GPFS并行文件系统

最后一张华为HPC架构图,总结上面的内容
在这里插入图片描述

1 某某汽车高性能计算管理平台系统需求 5 1.1 业务需求分析: 5 2 某某汽车 HPC/CAE云计算中心建设目标、策略及步骤 7 3.1 建设目标与策略 7 3.2 建设步骤 8 3 面向高性能计算中心的资源管理、作业调度系统方案 10 3.1 基于应用的场景分析 10 3.1.1 终端用户通过Compute Manager,提交Fluent批处理计算作业 10 3.1.2 终端用户通过Display Manager,提交需要图形节点支持的图形交互程序 13 3.1.3 终端用户通过Compute Manager,在线查看CAE计算结果中的动画 14 3.1.4 终端用户通过Portal启动其他第三方的虚拟桌面,如Ctrix 15 3.2 某某汽车技术中心 HPC云计算平台管理场景 17 3.2.1 HPC云计算平台管理维护 17 3.2.2 HPC云计算平台软、硬件利用情况监控、统计分析 18 4 澳汰尔PBS Works产品介绍 20 4.1 系统逻辑图 20 4.2 系统物理架构图 22 4.4 PBS Professional产品介绍 25 4.4.1 整合计算资源、方便用户使用 25 4.4.2 可靠性、可用性、可维护性(RAS) 26 4.4.3 贯彻企业服务公约管理模式 29 4.4.4 优化计算资源的使用 29 4.4.5 计算资源管理功能 30 4.4.6 作业调度功能 32 4.4.7 Hooks功能 34 4.4.8 网格计算 35 4.4.9 安全认证 35 4.5 PAS(PBS 应用服务) 37 4.6 Compute Manager 40 4.6.1 三员管理 41 4.7 Display Manager 42 4.7.1 Display Manager系统架构 44 4.7.2 Display Manager使用体验 45 4.8 PBS Works定制功能 48 4.8.1 菜单布局:通常将布局分为三个模块:计算管理器、集群状态、管理员工具。如果有其他的模块,我们可以方便地集成在这个框架内(awpf)。菜单模块支持用户访问控制。 48 4.8.2 集群状态监控:统计所有计算节点的运行状态、节点类型、应用程序、物理内存、实际使用内存、内存使用率、节点利用率等信息。磁盘信息和实际CPU利用率,通过数字的颜色来反应使用程度:0%<X<30%(绿色),30%<X<50%(蓝色),50%<X<80%(橙色),80%<X>在线设置或修改节点上绑定的applications 50 4.8.5 管理员工具>>用户统计:用户名称,作业总数,运行作业个数,排队作业个数,申请cpu核数,使用cpu核数,排队cpu核数等信息。申请cpu总资源比,通过数字的颜色来反应使用程度:0%<X<30%(绿色),30%<X<50%(蓝色),50%<X<80%(橙色),80%<X>作业管理:统计作业号、作业名称、用户、软件、节点数、核数、状态、开始时间、优先级等信息。当作业排队状态时,允许修改作业的优先级。另外管理员也可以删除任意作业。 51 4.8.7 管理员工具>>监控作业排队原因 51 4.8.8 管理员工具>>一周作业统计: 统计当天到过去一周内所累积的运行和排队作业个数。 51 4.8.9 管理员工具>>求解器使用情况统计:统计每个求解器提交的作业总数,在运行的作业,请求的cpu,排队cpu,使用cpu等信息。 52 4.8.10 管理员工具>>磁盘统计:通过WEB页面随时了解本地磁盘的使用情况。使用百分率,通过数字的颜色来反应使用程度:0%<X<30%(绿色),30%<X<50%(蓝色),50%<X<80%(橙色),80%<X>项目管理项:管理员可以以项目为单位,设定项目编号、项目名称、项目的开始和结束时间,项目组人员和项目的优先级。当有紧急的项目,管理员可以把项目的优先级提高,并可以把相应的用户加到项目组中,以此提高项目组成员的作业优先级。用户在Web Portal页面提交作业可以选择项目名称,并且只能选择自己所属项目的项目名称。 53 4.8.12 管理员工具>>作业委托管理: 统计当前用户自己所提交的作业总数,包含:作业号,作业名称,具体用户,使用的软件,使用节点数,作业状态等信息,用户可以把自己的一部分作业或所有作业委托给其他用户. 53 4.8.13 管理员工具>> CPU资源份额调整: 统计所有队列下每个用户的软份额限制,硬份额限制(软限制>整体HPC计算资源实时使用统计: 统计当前所有高性能机器集群的计算资源数目,运行状况,存储等使用情况。 54 4.8.15 管理员工具>> WEB版FTP大文件上传: 招标书中明确要求提供基于网页版的FTP上传工具,方便上传大文件。 55 4.8.16 portal用户密码校验: 为了安全保密,当用户在登陆portal的时候,连续5此输入密码错误,系统会冻结用户。直到一段时间后,方可再次登陆。 55 4.9 报表工具PBS Analytics介绍 56 4.9.1 Analytics架构 56 4.9.2 Analytics功能说明 57 4.9.3 Analytics实际案例分析 57 4.10 SAO解决方案 59 4.10.1 SAO架构 60 5 PBS支持仿真软件 61 5.1 CAE领域中支持软件分类及特点 61 5.2 CAE领域中支持软件及介绍 61 5.3 CFD领域中支持软件及介绍 63 5.4 其他领域及自研软件 64 6 和其他作业调度系统的比较优势 65 6.1 Top100超级计算中心占有率对比 65 6.2 Display Manager让用户的仿真整个过程从工作站到了云端 65 6.3 针对大规模计算中心之功能特性 67 6.4 领域知识对比(并有能力帮助HPC中心建立围绕计算的业务能力) 68 7 成功案例 68 7.1 汽车行业用户列表 68 7.2 成功案例-泛亚汽车(通用设计中心) 69 7.3 PBS在中国实施的大规模计算案例 71 7.4 PBS在全球实施的大规模计算案例 72 8 平台架构与软硬件配置建议 72 8.1 硬件平台选型常见误区 72 8.2 cpu架构的选择 73 8.3 计算网络的选择 76 8.4 存储系统的选择 79 8.5 GPU的选择 80 8.6 节点类型的选择 87 8.7 操作系统的选择 87 8.8 并行文件系统的选择 88 8.9 PBS Professional的数据流控制 89 8.10 推荐配置 90 9 硬件常见测试 92 9.1 性能峰值能力测试点 92 9.2 测试压力估算 92 9.2.1 估算结果 92 9.2.1.1. 性能峰值能力测试估算 92 9.3 测试完成准则 93 9.4 测试风险 93 9.5 测试策略 93 9.6 测试用例详细 93 9.6.1 术语 93 9.6.2 性能测试用例描述 94 9.6.2.1. 机群性能测试描述 94 10 Altair介绍 96
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值