AI-System 学习

置顶 LIZHUOLONG1

已于 2025-02-21 18:51:47 修改

阅读量435

点赞数 1

文章标签： ai

于 2025-01-31 16:14:50 首次发布

本文链接：https://blog.csdn.net/LIZHUOLONG1/article/details/145406115

版权

《AI系统原理与架构》ZOMI
https://github.com/chenzomi12/AISystem
https://github.com/chenzomi12/AIFoundation

1PB = 1024TB（太字节）
1PB = 1024 x 1024GB（千兆字节）
1PB = 1024 x 1024 x 1024MB（兆字节）
1PB = 1024 x 1024 x 1024 x 1024KB（千字节）
1PB = 1024 x 1024 x 1024 x 1024 x 1024B（字节）
1GB = 1024MB、1TB = 1024GB、1PB = 1024TB

在这里插入图片描述
AI集群建设：
（1）存算网：计算、存储、网络

----- 看完 XCCL 看数据并行，张量并行，模型并行！
----- 后面路由器、交换机出来了的话也得重点关注！
----- 网络模型~

在这里插入图片描述
---- 大模型业务全流程：分布式并行是怎么去切分到AI集群里面每1U 每张卡每张NPU 每个节点是怎么去分配模型的层数的，已经深入到代码层面了（这块还没看…!!!）

NVIDIA GPU架构发展：chip、Superchip、Tray、DGX B200 NVL72、DGX SuperPOD、大规模集群解决方案
【算力提升】纳米制造工艺、晶体管的堆多、硬件的架构、封装能力（多Die合封）、提升网络带宽、减少通信延时
（1）现在训练一个大模型，实际上的HFU 只能达到50%，有大量的时间都是在做通讯、互传数据、等待和同步相关的问题
（2）我需要聚焦的就是在：提升网络带宽的解决方案！
（3）NPU卡间互联协议（灵衢架构、AMD&Google的UALink ）与 XCCL的关系是啥？
---- 灵衢、UALink 应该是对标 NVLink 这样的架构，是NPU卡间互联协议的重构与优化，以提升 all2all 的通信效率；
---- XCCL是不同服务器之间的网络通信库

带宽、网卡
 CPU、GPU、NPU 芯片基础
 华为 Ascend 产品

NVLink的发展 & 结构
 NVLink 拓扑、DGX 硬件渲染图

集合通讯概览
（1）大模型对AI集群训练的诉求：大带宽、强同步
通信方式（内存共享、PCIe、NVLink直连模式、TCP/IP、RDMA）、点对点通信、集合通信
 XCCL、NCCL、HCCL通信库