超大规模分布式智算中心无损网络解决方案设计 2024

1 分布式智算中心无损网络解决方案设计

1.1 方案设计原则

分布式智算中心无损网络是一种特别设计的网络架构,通过全栈创新,旨在 整合盘活闲散算力资源,实现算力高效互补和联动,进而构建极致可靠的算力集 群,为大规模分布式智能计算提供高性能、低延迟且无丢包的数据传输能力。

这种网络架构可以提供接近于本地智算中心网络性能的计算效率和数据处理速度, 对于支持大规模机器学习模型训练和高性能计算至关重要。

分布式智算中心无损网络在方案设计时,应遵循打造超大规模算力集群、提 供高效稳定训练能力、实现算网灵活调度供给以及坚持绿色低碳节能减排四大设 计原则:

(1) 打造超大规模算力集群

当前智算集群主要规模为单数据中心内的数千张计算卡,更大规模的万卡乃 至超万卡集群建设尚处于初期阶段。构建超大规模算力集群将进一步缩短大模型 训练时间,加速模型能力迭代。通过分布式智算中心无损网络可以实现多节点算 力协同,构筑超大规模的极致算力集群。

(2) 提供高效稳定训练能力

大模型的计算量大、训练时间长,训练期间涉及节点间的频繁交互,对网络 稳定性要求高。如果训练期间网络出现不稳定,轻则将回退至上一个分布式训练 的断点,重则可能要从 0 开始,会影响整个训练任务进度,给客户带来重大损失。 分布式智算中心无损网络需要在支持大模型高效训练的同时,保持长期训练的稳 定性。

(3) 实现算网灵活调度供给

构建多 DC 算力集群灵活调度,实现算力高效互补和联动。同时,通过应用 服务、算力使能平台和算力底座的深度适配,高效的算网调度及协同,实现训练 资源的按需分配,为用户提供接近本地训练的算力效率和灵活的算力供给能力。

(4) 坚持绿色低碳节能减排

通过分布式部署的算力集群分担电力,实现电力与算力的最优配置,并通过 800G C+L 构建低时延、高带宽的全光网络,为智算集群提供超大带宽的主干道, 实现最优成本的 bit 传输和算力的绿色供给。

1.2 分布式智算中心无损网络总体架构

分布式智算中心无损网络总体架构由多个单节点智算中心网络组成,其中每 个单节点智算中心网络均包括多个业务区块 : AI 集群区、通用计算区、存储区、 带外管理区、管理区、网络服务区、接入区。

每个区域负责特定的功能,区块间 通过核心交换区的核心交换机连接在一起构成单节点智算中心网络,多个单节点 智算中心网络之间通过广域互联区互联,构成分布式智算中心无损网络,共同支 撑起整个分布式智算中心的运行。

分布式智算中心无损网络总体架构如图 2-1 所示:

图 2-1 分布式智算中心无损网络总体架构

  • AI 集群区: 包括 GPU、TPU 或其他加速器等高性能计算节点,用于智算集群分布式训练时的参数交换。要求网络具备大带宽、高吞吐、无丢包能力,需要 部署无损网络。

  • 通用计算区: 包括 CPU 等通用服务器,支持各种类型的应用程序和服务。 提供标准的计算资源,用于运行非 AI 相关的计算任务,通常部署为 TCP/IP 有损 网络。

  • 存储区: 包括高速缓存存储、块存储、对象存储等多种存储类型,用于存储 大量数据和模型文件。要求网络具备高速大带宽互联能力,可按需部署无损网络。

  • 管理区: 包括监控系统、配置管理系统和安全控制系统。负责整体网络的监 控、配置和安全管理,通常部署为 TCP/IP 有损网络。

  • 带外管理区: 用于管理计算节点和其他网络设备的带外接口。提供独立于主 网络之外的管理通道,确保即使在主网络出现问题时也能进行设备管理,通常部 署为 TCP/IP 有损网络。

  • 网络服务区: 提供防火墙、负载均衡、DNS、NTP 等网络服务,保障网络 设备和服务的正常运行,通常部署为 TCP/IP 有损网络。

  • 接入区: 是智算中心对外连接的主要入口。包括防火墙、负载均衡器等设备, 用于连接外部网络和提供安全防护,通常部署为 TCP/IP 有损网络。

  • 广域互联区: 包括路由器、OTN 等设备。多节点智算中心通过具备高通量 的联算网关互联,中间通过 OTN 全光网络提供高品质的大带宽连接,实现 AI 集群训练网络的跨 DC 互联互通,需要部署无损网络。

这些区域共同构成了分布式智算中心网络架构,每个区域都承担着特定的角 色,通过相互协作确保整个分布式智算中心的高效运作。其中,构建 AI 集群之 间的无损广域互联网络是方案中的设计重点。

通过提供物理隔离、全程资源独享 的高质量、低时延的波长级大带宽管道,实现 DC 间的多方向任意互联,并提供 抗多次断纤的能力,保证互联的可靠性。

在大带宽的传输资源基础上,智算中心 出口通过联算网关提供灵活的、易扩展的跨智算中心组网和长距无损、高吞吐、 高可靠的数据承载。

AI 集群区网络互联架构如图 2-2 所示:

图 2-2 AI 集群区网络互联架构

AI 集群网络架构从下到上分成四个层次:

  • 接入层 : 由 Server Leaf 交换机组成,支持 AI 算力服务器的高密规模接入, 上下行带宽收敛比推荐 1:1。AI 训练服务器每个接口采用独立 IP,以独立链路方 式接入到 Server Leaf 交换机,不做链路捆绑。接入侧支持光模块故障保护机制, 避免接入侧链路故障导致训练中断。

  • 汇聚层 : 由 Spine 交换机组成,下行接 Server Leaf 交换机,上行接 DCI Leaf 交换机。Spine 交换机的数量决定了本节点 AI 集群的总规模,根据训练业务模型 的选择,汇聚层可以有一定的收敛比。

  • 集群出口层 : 由联算网关组成,作为 AI 集群的出口,联算网关下行与多 Spine 交换机进行全互联,上行通过 OTN 和其他节点互联。集群出口层也可根据业务 模型的选择进行收敛。此外,集群出口层采用算网协同、DC 间与 DC 内级联精 准流控等技术,实现网络负载均衡和长距无损,为 AI 集群的高效训练提供基础 网络保障。

  • 广域互联层 : 不同智算中心节点之间采用 OTN 全光网一跳直达,全程无拥 塞,无丢包。广域互联层提供单纤 96Tbps 的超大带宽能力,利用高性能的 WSON 技术和智能运维技术,保障智算高可靠互联,同时具备与业务联动的波长级拆建 能力,实现算网协同。

通过这些设计,AI 集群网络架构能够在长距离、大规模的分布式计算环境 中提供稳定、高效的数据传输能力,为大规模智算中心的高效运行提供坚实的基 础。

1.3 方案技术特征



分布式智算中心无损网络将智算中心无损网络从数据中心网络向广域网延伸,方案具备长

距无损、超大带宽、超高可靠、弹性敏捷和智慧运维的特征。


(1) 长距无损 : 在大模型训练过程中,采用 RDMA(远程直接内存访问) 作为输入输出协议。由于 RDMA 对网络拥塞和丢包非常敏感,即便是少量的丢 包也会导致性能急剧下降。因此,底层网络必须具备无损传输能力,确保数据传 输过程中不会出现拥塞或丢包现象,从而避免上层协议性能受损。

(2) 超大带宽 : 超大带宽能够确保大量数据在分布式智算中心之间快速传 输,加速 AI 模型的训练和推理过程。随着数据量的增加,分布式智算中心之间 需要高效同步数据和模型参数,这就要求网络提供足够的吞吐量,以避免网络拥 塞和性能下降。

(3) 超高可靠 : 为了保证分布式智算中心之间的长期稳定训练,防止网络 施工等外来因素导致的训练中断,传输网络需要具备高可靠性。例如在网络链路 发生故障时能够快速恢复,保证智算不中断,任意二次故障带宽不下降,以避免 因链路中断而导致的智算训练回退和算力效率下降。

(4) 弹性敏捷 : 分布式智算中心无损网络需要根据多租户的不同需求,能 够灵活地组建不同规模和类型的集群组网。这意味着网络需要具备弹性敏捷的按 需拆建能力,能够根据计算需求的变化快速调整,动态分配大带宽资源。

(5) 智慧运维 : 传统网络运维面临同缆&同沟、误码闪断等难题,导致保 护机制失效和业务异常。分布式智算中心无损网络需要具备智慧运维能力,能够 快速准确地定位和解决问题,提高故障定位的准确率,确保网络的稳定运行。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值