《AI系统原理与架构》ZOMI
https://github.com/chenzomi12/AISystem
https://github.com/chenzomi12/AIFoundation
1PB = 1024TB(太字节)
1PB = 1024 x 1024GB(千兆字节)
1PB = 1024 x 1024 x 1024MB(兆字节)
1PB = 1024 x 1024 x 1024 x 1024KB(千字节)
1PB = 1024 x 1024 x 1024 x 1024 x 1024B(字节)
1GB = 1024MB、1TB = 1024GB、1PB = 1024TB
AI集群建设:
(1)存算网:计算、存储、网络
----- 看完 XCCL 看 数据并行,张量并行,模型并行!
----- 后面路由器、交换机 出来了的话也得重点关注!
----- 网络模型~
---- 大模型业务全流程:分布式并行是怎么去 切分到AI集群里面 每1U 每张卡 每张NPU 每个节点是怎么去分配模型的层数的,已经深入到代码层面了(这块还没看…!!!)
NVIDIA GPU架构发展:chip、Superchip、Tray、DGX B200 NVL72、DGX SuperPOD、大规模集群解决方案
【算力提升】纳米制造工艺、晶体管的堆多、硬件的架构、封装能力(多Die合封)、提升网络带宽、减少通信延时
(1)现在训练一个大模型,实际上的HFU 只能达到50%,有大量的时间都是在做通讯、互传数据、等待和同步相关的问题
(2)我需要聚焦的就是在:提升网络带宽的解决方案!
(3)NPU卡间互联协议(灵衢架构、AMD&Google的UALink )与 XCCL的关系是啥?
---- 灵衢、UALink 应该是对标 NVLink 这样的架构,是NPU卡间互联协议的重构与优化,以提升 all2all 的通信效率;
---- XCCL是不同服务器之间的网络通信库
带宽、网卡
CPU、GPU、NPU 芯片基础
华为 Ascend 产品
NVLink的发展 & 结构
NVLink 拓扑、DGX 硬件渲染图
集合通讯概览
(1)大模型对AI集群训练的诉求:大带宽、强同步
通信方式(内存共享、PCIe、NVLink直连模式、TCP/IP、RDMA)、点对点通信、集合通信
XCCL、NCCL、HCCL通信库