NVIDIA BlueField-3 与NVIDIA DOCA 重塑AI数据中心基础设施—AI数据中心的变革者体验之旅

引言:

          在当今这个数据驱动的时代,人工智能(AI)和加速计算正在重塑数据中心基础设施的面貌。NVIDIA BlueField-3 DPU和NVIDIA DOCA软件框架正是这一变革的先锋。随着全球数据中心对性能和效率的需求日益增长,NVIDIA BlueField-3 DPU是一款专为数据中心设计的400Gb/s基础设施计算平台,它不仅提供了前所未有的网络速度,还通过强大的计算能力和软件定义、硬件加速的基础设施,为网络、存储和网络安全提供了全面的加速。这种结合了硬件和软件的创新,使得数据中心能够以更高的安全性、性能和效率运行各种规模的工作负载。NVIDIA BlueField-3 DPU和NVIDIA DOCA软件框架应运而生,它们正引领着一场数据中心基础设施的革命性变革。

一:概述当下数据中心的趋势

当前数据中心正处于转型期,面临性能瓶颈、能耗压力、安全挑战的同时,也迎来了由AI、大数据和云计算驱动的新发展机遇。突破摩尔定律限制的异构计算架构、AI驱动的基础设施智能化、可持续性与绿色计算的优先级提升、网络架构的转型与高性能连接等趋势,正在重新定义数据中心的未来。通过像NVIDIA BlueField-3 DPUDOCA软件框架、Spectrum-X网络平台等创新技术的推动,现代数据中心正在向更高效、更智能、更绿色的方向迈进,成为支持数字经济和技术创新的核心基石。

我們稍微先看一看我們目前由于人工智能引入的一些新的应用它会給我們数据中心帶來更多的新的需求当然也是我們面临的更多的新的挑战。

大概我們总结起來要有以下三个方面:

1:规模与性能-摩尔定律终结,数据中心规模计算的严苛要求

性能需求的指数级增长:突破摩尔定律的限制 

随着摩尔定律逐渐接近物理极限,传统单一CPU性能提升的速度已经无法满足AI、大数据分析和高性能计算等现代工作负载的需求。AI模型的复杂性持续增加,训练和推理所需的计算能力呈指数级增长,这使数据中心必须突破传统计算架构的限制。 

-异构计算成为关键:通过引入GPU、DPU(数据处理单元)等专用硬件加速器,数据中心实现了计算任务的分工协作,充分释放计算潜力。GPU擅长处理高密度的并行计算任务,尤其是在AI训练中,而DPU通过卸载网络、存储和安全计算任务,进一步释放CPU资源。 

- 软件定义与硬件加速结合:例如,NVIDIA BlueField-3 DPU通过硬件加速基础设施计算,结合DOCA软件框架,提供了更高效的网络、存储和安全加速能力,满足现代数据中心对高性能的需求。

2:高效与弹性-cpu负载资源配资,数据中心电力限制

 AI驱动的基础设施智能化 

人工智能不再仅仅是工作负载的主要类型,还成为提升数据中心效率和性能的重要工具。AI驱动的基础设施智能化正在为数据中心的管理、优化和自动化提供新的视角。 

- 动态资源分配:AI能够实时分析工作负载需求,优化资源分配,在多租户环境中实现计算、存储和网络资源的高效利用。 

- 自动化管理:AI可以通过预测性维护、能耗优化和负载均衡等功能,显著降低数据中心的运营成本。例如,AI算法可以预测硬件故障,并在问题发生前采取措施。 

- 基础设施即代码(Infrastructure as Code, IaC):通过软件定义的方式管理数据中心,结合AI优化,能够实现更智能的基础设施运维。 

-可持续性和绿色计算-成为数据中心建设和运营的重要优先事项

**提高能效**:通过硬件加速器(如GPU和DPU)的引入,大幅提升计算效率,降低单位计算任务的能耗。相比传统CPU,GPU在AI训练等高密度计算任务上的能效比显著更高。 

- 优化冷却系统:采用液冷技术、自然冷却等创新手段,降低数据中心的制冷能耗。 

- 可再生能源利用:未来的数据中心将更多依赖太阳能、风能等可再生能源,同时通过智能能源管理系统优化能源使用。 

- 碳中和目标:NVIDIA等技术公司正在通过优化技术栈和提升硬件效率,帮助客户实现碳中和和绿色计算目标。

NVIDIA通过其DOCA软件框架,结合BlueField3 DPU,支持开发者构建智能化的基础设施应用,使得AI在数据中心管理中发挥更大的作用。

3:安全与可恢复性的基础设施-多用户环境的应用,网络的威胁形式的日趋严重,攻击面扩大

随着AI和大数据工作负载的快速增长,数据中心的网络架构正经历转型,以应对更高的带宽需求、更低的延迟要求以及更复杂的多租户场景。传统以太网架构在AI训练中的瓶颈越来越明显,推动了高性能网络解决方案的快速发展。 

-高速互联和低延迟:AI训练需要在多个GPU和服务器之间传输海量数据,传统网络架构的延迟和带宽限制已成为瓶颈。为此,NVIDIA推出Spectrum-X以太网解决方案,提供高性能、低延迟的网络连接,专为超大规模AI数据中心设计。 

-软件定义网络(SDN):通过虚拟化和软件定义技术,数据中心能够灵活配置网络资源,满足不同工作负载的需求,同时提升网络的可管理性和安全性。 

- 多租户隔离与安全性:在云计算场景中,确保租户之间的隔离性和数据安全性是关键。NVIDIA BlueField DPU通过加速虚拟化和加密功能,硬件加速安全防护(如NVIDIA BlueField DPU)提升隔离性和数据加密能力,检测威胁并快速响应,增强灾备与恢复能力,确保业务连续性,为多租户环境提供了更高的性能和复杂的多样化安全保障。

二:NVIDIA BuleField-3 概述

1:Bluefield-3它是一個纯异构的一個平台里,既有针对网卡处理的ASIC也有标准的ARM CPURISC-VCPU在里这里後我們通过这些可编程的接口。

Bluefield-3SuperNIC的产品來去很好的去支持我們的设备向的网络流量聚焦到Bluefield-3的具体产品上來阐述:

它是我們目前現在在中国可接受的最高速率可以达到400G的一个DPU的产品,也会很好的去支持我們RDMAROCE的加速。

2:下一代防火墙等等这些安全的功能部署在Bluefield-3上。所以关注的安全上你可以在上面去实现很多安全的功能

3:从性能上面來说BlueField-3BlueField-2有效的质的飞跃。

我们通过BlueField-3能夠很好的去做存算分离可以去支持NVME-OFNVME/TCP的存储的设备,也可以去做你的数据静态存储在存储设备上它也可以对这些数据进行加密,去重, 压缩等等这些功能

我们这一代的新的BlueField-3平台推出的時候都会在网络的带宽上在跟CPU主机通信上 ARM的算力上在內存容量的或者說內存的通信上都會有新的硬件或者有新的技术的采用。整个平台的性能上在它的功能上都會有一样的飞跃,我們也期待未來我們BlueField-4的下一代产品推出。能夠給大家更好的來去提供数据通信上和基础设施管理上面的新的功能。

4:成本与性能之间的核算的分析

可能是在一個物理服务器上只是增加了BlueField-3 DPUConnect-X的网卡增加了一部分卡的成本,但是我可能把很昂贵的CPU30%的內核释放出來,去跑业务应用这样我可能就不会有大量的需求促使我必須要去不停的扩增服务器的数量.不管是对CPU算力要求高的还是对GPU算力要求高的这些工作负载你都会需要更強健或者性能更好的网络支持所以DPU在這上面会发挥非常好的作用。

5:应用场景的无限泛化的未来

在电信边缘计算上也有很多的科学计算和AI的应用场景。所以它不只是在大規模的数据中心中可以用在边缘上在一些算力要求不高的场景下,它也将可以广泛的被使用。

三:DOCA开发应用在BuleField-3的DPU架构-系统-场景上开发详解

1:这里是想給大家展现一下就是DOCACUDA本身並不是两个完全割裂开的开发平台.

您可能在GPUCUDA上面做了相当的程序开发之后,你突然发现,要调度通过CUDA去调动这么多GPU算力來实现你的应用功能的時候,发现GPU的计算能力並不在於GPU本身的算力

你会发现DOCAGPU之间可能存在的能力是会在与网络通信上或者讲数据的快速移动

或者说数据的保密上会帶來新的这种考虑的设计,需要BuleField-3辅助功能介入,然后在DOCA上面去做一些优化和改进的,去滿足你业务应用上的需求。

2:DOCA的软件栈其实是比较简单的并不复杂只是说有三部分核心的组件來组成:

A:——部分是DOCA的驱动

B:——部分是DOCA的库

C:——部分是DOCA的服务

DOCA的驱动这里面会有一部分是开源软件提供的,也有一些不开源的,你是可以通過用戶协议

开放的用戶协议你是可以免费下载去使用这些API接口的。

3:快速开发流程简介

你想快速的去开发一个在基于高级抽象過的API开发接口实现功能的时候大家就可以去采用DOCA库,那这里比如:你做加解密对流的一些匹配处理,对存储上的一些加速,对8K视频流做加速都会有相应的库提供给你做调用。

我们首先从硬件的角度理解-主要有這几个编程的引擎架构:

       ARM的CPU

              DOCA的相关的软件和库安裝到ARM的核心上,大家可以利用这个去实现一些功能
当然說它的编译完的程序也是跑在ARM的CPU系统上。

    RISC-V的CPU:

             有一个数据路劲加速器,处理密集IO上面的一些決策,实时的操作系统跑在RISC-V的CPU上。

​ 从整个开发环境的应用的角度去看会有两部分不同的人員去使用DOCA框架。
A: 一部分就是开发者和研究人員
他希望在DOCA上面去构建自己的应用程序和服务,所以他会去用DOCA SDK。

这上面都是有一些开发的库、开发的驱动还有一些文档、应用实践的参考的一些资源会提供給这些编程的角色。

B:一部分是IT管理人员和IT安全人员

他们希望是直接使用這个DOCA部署這個,提供DOCA运行层上面有一些编译好的库跟Driver也會有DOCA服务方便IT管理人员快速的把已经做好的DOCA应用和服务部署到数据中心。

有Driver有库从整个开发的角度來说一个应用程序你既可以其余地层的Driver去做构建,当然也可以去用库的方式來去做构建,你也可以把两个模式结合到一起來去构建。

四:开发的测试架构和运行方法

并不是大家人人手里都有这块板卡:

那这么做呢?
就是提供一个在X86主机上面的一個容器化的模擬器
你可以在上面去做程序的编码和编译
但是沒有办法去做测试和运行。

为什么呢?
就是因为它编译完了之后的程序它不是X86指令級的
它可能是Arm指令级或者是RISC-V 的指令级运行形式的二进制文件
所以你没办法在X86的平台上去做测试和运行

那你需要把做完了程序导入到一个真实的BlueField-3的场景里面再去做测试和运行。

但是这个唯独的好处就是说大家可以先把功能做拆解分头去做开发。

​ 以上就是DOCA的开发者之旅过程及测试和学习体验的之旅文字解答。

接下来我就要真切的体验一下呦!

五:“沉浸式体验”-探索DOCA的BuleField-3网络数据中心基础设施无限可能的体验之旅

1:申请测试环境的访问权限。(向相关老师提出体验申请)

2:审核批准后,获得测试环境的vpn账号,主机访问账号和BlueField-3 DPU访问账号。

3:下载必要的vpn和ssh软件客户端-这里推荐用客户端。

4:下载后,安装必要客户端软件。

5:开启vpn软件客户端,用已获得的vpn账号登录。如图所示

https://i-blog.csdnimg.cn/direct/455f14c67a474e848a8eb9d115ff08c0.png ​编辑

6:登录后的vpn后,用ssh软件客户端远程登录到主机。如图所示

https://i-blog.csdnimg.cn/direct/75c11d2c1c584dbb9da56edee99d13ba.png ​ https://i-blog.csdnimg.cn/direct/2d48d2b8791f4dcf9167fddac5c68317.jpeg

7:在主机再用ssh 登录BlueField-3 DPU。

如图所示:

https://i-blog.csdnimg.cn/direct/ba7a35714cfb4f309980b09b94f4e6a7.png

8:体验 DOCA DPA All-to-all 参考应用程序

a:在BlueField-3 DPU下输入命令:

cd /opt/mellanox/doca/applications

b:进到参考应用程序所在目录下

c:检查是否已安装mpicc:

#dpkg -l | grep mpich

如果显示没有安装,则安装 mpicc:

#apt-get install mpich

https://i-blog.csdnimg.cn/direct/78f5e7a7542449c39120d0dbd9c78f92.png

d:在 BlueField-3 DPU 上构建 DOCA DPA All-to-all应用程序:

#meson /tmp/build –Denable_all_applications=false –Denable_dpa_all_to_all=true
ninja –C /tmp/build

如下图显示:红线为所执行的命令执,红圈为构建成功的 DOCA 应用程序版本2.7,以及只编译了 DOCA DPA All-to-all 应用程序。

https://i-blog.csdnimg.cn/direct/8b00b05d03e44e3fa7c709ae774d20de.png

https://i-blog.csdnimg.cn/direct/326ef0e0f5244e2b8eee981f2b30768b.png

e:检查BlueField-3 DPU上的RDMA设备号

#mst status -v

下图显示:

 https://i-blog.csdnimg.cn/direct/e6ec9df02d094f88b28c919595a16ff9.png

f使用 4 个进程运行 DOCA DPA All-to-all 应用程序,消息大小为 32 字节,并使用 mlx5_0 作为RDMA设备

#mpirun –np 4 /tmp/build/dpa_all_to_all/doca_dpa_all_to_all –m 32 –d "mlx5_0"

下图显示:命令和完成输出结果。

https://i-blog.csdnimg.cn/direct/7df2d689bba74d6d873f7eed67fee838.png ​​ ​

解释下此应用程序对数据处理的逻辑:

由于进程数量是 4,消息大小为32,所以每个进程处理 8 个随机小于 10000 的整数,所以两两一组延对角线交换数据就是正确的。

到这里我们完成整个体验任务的效果和输出测试。

NVIDIA DOCA 下载 | NVIDIA 开发者

最后附上DOCA最新版下载链接。大家有机会可以去体验DOCA开发体验和BlueField-3急速的快感呀!

总结一下体验后的感受:

  从开始理解当下的强大的数据中心的数据通信趋势开始后,了解NVIDIA BlueField-3的是用于加速和优化当下数据中心的最佳硬件软件开发调优的最佳方案,到深入了解如何使用DOCA框架在BlueField-3 DPU上各种场景中应用示范,最后如何运用这种开发框架测试和运行方法的整套深入浅出的学习后,一步一步的运用所学到的知识和参考的文档来完成了一场不可思议的、变革下的、沉浸式的体验之旅,干货满满,受益良多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值