高性能GPU服务器硬件拓扑及集群组网

最新推荐文章于 2024-12-30 11:56:40 发布

指间and流年

最新推荐文章于 2024-12-30 11:56:40 发布

阅读量1.8k

点赞数 11

文章标签：服务器运维

本文链接：https://blog.csdn.net/HWP18612324139/article/details/144760522

版权

大规模模型训练通常使用单机集群进行，每台机器有8张GPU卡。集群中使用的机器型号包括8 种：A100、A800、H100、H800，以及可能即将推出的 {4, 8} L40S。以下是具有8个A100GPU的典型机器的硬件拓扑：

01 基本介绍概念和术语

1. PCIe交换芯片

支持PCIe的CPU、内存、存储（NVMe）、GPU、网卡等设备都可以连接到PCIe总线或者专用的PCIe交换芯片上，实现互联互通。目前PCIe已经有五代产品，最新的是Gen5。

2. NVLink

NVLink是Nvidia 开发的有线串行多通道近距离通信链路。与PCI Express不同，一个设备可以由多个NVLink组成，并且设备使用网状网络而不是中央集线器进行通信。该协议于2014年3月首次发布，使用专有的高速信号互连 (NVHS)。

NVLink功能：

NVLink是指同一主机内不同GPU之间的高速互联方式。

它提供了短距离通信链路，确保数据包成功传输，并与PCIe相比提供更高的性能。

NVLink作为PCIe的替代品，支持多通道，链路带宽随着通道数量的增加而线性增加。

NV Switch在单个节点内，GPU使用NVLink以全网状配置互连，类似于主干叶(leaf-spine)拓扑。

NVIDIA 的专利技术。

NVLink演进：第 1/2/3/4 代

主要区别在于单个NVLink链路中的通道数和每个通道的带宽（图中提供了两个方向）。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

指间and流年

关注关注

11
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

音频——硬件拓扑

tyustli

09-02

1003

控制信号路径数据信号路径

GPU服务器集群网络规划方案

最新发布

guganly的专栏

03-26

1141

本网络规划方案基于高性能计算和存储的需求，采用物理和逻辑分层设计，将管理、存储和计算流量严格隔离；通过合理的IP地址规划和VLAN划分，确保不同网络轨道间无干扰；采用专用硬件（支持RoCE、IB、DCB等特性的交换机）以及自动化配置与监控，保证网络高可用、低延时及易于管理。各项部署前的试点和后续的定期巡检也确保了系统的稳定性和扩展性。该方案既考虑了现有设备情况，也预留了未来扩展的空间，能够满足256台H20 GPU服务器集群在业务管理、存储与计算三轨道上的高性能需求。

参与评论您还未登录，请先登录后发表或查看评论

高性能GPU服务器硬件拓扑与组网全攻略

05-19

3566

高性能GPU服务器硬件拓扑与组网全攻略

数据中心GPU集群高性能组网技术分析

本博客，博文仅代表个人操作经验，不能完全解决你的问题，仅供参考，佛系回复。

03-01

4845

值得注意的是，当连接10,000个以上的GPU时，服务器内部GPU之间的切换是通过服务器内的NVswitches完成的，而IB/以太网网络则负责将服务器连接在一起。高端以太网交换机ASIC的主要供应商可以提供高达51.2Tbps的交换容量，配备800Gbps端口，其性能是Quantum-2（（英伟达GTC 2021大会上发布全新的InfiniBand网络平台，具有25.6Tbps的交换容量和400Gbps端口））的两倍。然而，相比于其他高性能互连技术，PCIe的带宽和延迟较高，适合中小规模的GPU集群。

GPU 进阶笔记（一）：高性能 GPU 服务器硬件拓扑与集群组网

hao_wujing的专栏

12-30

3244

Wikipedia 上NVLink上的定义：简单总结：同主机内不同 GPU 之间的一种高速互联方式，是一种短距离通信链路，保证包的成功传输，更高性能，替代 PCIe，支持多 lane，link 带宽随 lane 数量线性增长，同一台 node 内的 GPU 通过 NVLink 以full-mesh方式（类似 spine-leaf）互联，NVIDIA 专利技术。

GPU 学习笔记三：GPU多机多卡组网和拓扑结构分析（基于数据中心分析）

汝飞@大模型的博客

10-29

3121

上章记录了单机多卡的拓扑结构，同时在计算网络小节中也提到了Spine-Leaf网络拓扑结构，这章会详细介绍这种拓扑结构的由来。实际上，spine-leaf网络拓扑结构是一种Clos结构，我们称之为“脊叶网络”，由Charles Clos在1950年提出，初衷是为了解决网络电话爆炸式增长这一难题。

GPU 学习笔记二：GPU单机多卡组网和拓扑结构分析（基于A100的单机多卡拓扑结构分析）

汝飞@大模型的博客

10-28

3875

大规模 GPU 训练的性能与数据传输速度有直接关系。这里面涉及到很多链路，比如 PCIe 带宽、内存带宽、NVLink 带宽、HBM带宽、网络带宽等。网络习惯用 bits/second (b/s) 表示之外，并且一般说的都是单向（TX/RX）；其他模块带宽基本用 byte/sedond (B/s) 或 transactions/second (T/s) 表示，并且一般都是双向总带宽。比较带宽时注意区分和转换。换算单位：1Byte=8bit。

高性能GPU服务器集群拓扑及组网方案

04-17

2630

高性能GPU服务器集群拓扑及组网方案

大规模GPU集群的进阶之路

RadLU的博客

07-14

2720

大家好，我是卢旗。今天来聊聊GPU。GPU，全称Graphic Processing Unit，即图形处理器。它的并行处理能力非常强大，能够同时处理多个任务和数据，因此被广泛用于图形渲染、视频处理、深度学习、科学计算等领域。研发团队在负责制定硬件选型策略并设计优化下一代大规模GPU集群的软硬件架构时，我们需要关注GPU技术的最新进展、重点研究问题以及潜在的技术突破。一、GPU在重点研究的问题二、硬件选型策略三、软硬件架构设计。

人工智能万卡 GPU 集群的硬件和网络架构

05-26

1669

万卡 GPU 集群互联：硬件配置和网络设计

硬件网络拓扑图 C/S

10-26

硬件网络拓扑图 C/S 关于硬件的拓扑图

高性能计算GPU解决方案系列教程二--高性能计算集群性能指标

weixin_34074740的博客

03-06

1116

本节课的内容对于很多不了解硬件指标的用户非常重要，超算用户是如何来评定自己集群的各方面能力呢？我们一起走进今天的课堂。2 高性能计算集群性能指标2.1 衡量高性能计算集群的评价指标2.1.1. 理论峰值性能FLOPS是指每秒浮点运算次数，Flops用作计算机计算能力的评价系数。根据硬件配置和参数可以计算出高性能计算集群的理论性能。 1）CPU...

【PCIE体系结构三】PCIE的硬件拓扑结构和逻辑层次结构

highman110的博客

03-30

4861

简述PCI、PCIE的硬件拓扑结构和PCIE的逻辑层次结构

查看服务器硬件拓扑信息

六六哥的博客

07-16

661

在CentOS上查看服务器拓扑信息 hwloc-ls

CUDA笔记之二：硬件与拓扑原理篇

程序员的自我修养_Will.zhang

04-15

1287

这部分是一些枯燥的硬件知识的总结，但是对优化CUDA程序有着至关重要的作用，在后面的文章里，我将尽量结合实例来讲解这些东西 1 GPU硬件 i GPU一个最小单元称为Streaming Processor(SP)，全流水线单事件无序微处理器，包含两个ALU和一个FPU，多组寄存器文件（register file，很多寄存器的组合），这个SP没有cache。事实上，现代GP

GPU服务器集群的特点和优势

恒创科技Henghost

04-25

591

构建和维护GPU服务器集群需要专业知识和经验，包括系统集成、网络配置、软件部署以及日常的维护和优化工作。为了简化这一过程，许多组织选择与经验丰富的IT合作伙伴合作，以确保集群能够高效、可靠地运行。GPU服务器集群是由多台配备了高性能图形处理单元（GPU）的服务器组成，并通过高速网络互连形成一个计算能力强大的系统。总之，GPU服务器集群是一个功能强大的计算平台，能够应对最苛刻的科学、工程和商业挑战，是实现高性能计算（HPC）和人工智能（AI）工作负载的理想解决方案。

【知识】一图看懂lstopo计算机硬件拓扑图及PCI相关知识简介

xfxuezhang.cn

06-11

1723

非常好理解哦

SPI学习(一):SPI简介与硬件拓扑

liaojunwu的博客

11-14

5652

一.SPI简介关于这一点，参考的是内核的标准文档:documentation/spi/spi-summary: 原文:The "Serial Peripheral Interface" (SPI) is a synchronous four wire serial link used to connect microcontrollers to sensors, memory, and peripherals. It's a simple "de facto" standard, not compl

集群组网

03-26

集群组网是指通过特定的网络拓扑结构和协议，将多个设备（如计算机、服务器或无人机）互联起来，从而协同完成复杂的任务。以下是关于集群组网的主要概念及其实现方法： #### 1. 基本架构分类集群组网可以按照不同...