AI-System 学习

《AI系统原理与架构》ZOMI
https://github.com/chenzomi12/AISystem
https://github.com/chenzomi12/AIFoundation

1PB = 1024TB(太字节)
1PB = 1024 x 1024GB(千兆字节)
1PB = 1024 x 1024 x 1024MB(兆字节)
1PB = 1024 x 1024 x 1024 x 1024KB(千字节)
1PB = 1024 x 1024 x 1024 x 1024 x 1024B(字节)
1GB = 1024MB、1TB = 1024GB、1PB = 1024TB

在这里插入图片描述
AI集群建设:
(1)存算网:计算、存储、网络
在这里插入图片描述
----- 看完 XCCL 看 数据并行,张量并行,模型并行!
----- 后面路由器、交换机 出来了的话也得重点关注!
----- 网络模型~
在这里插入图片描述


在这里插入图片描述
---- 大模型业务全流程:分布式并行是怎么去 切分到AI集群里面 每1U 每张卡 每张NPU 每个节点是怎么去分配模型的层数的,已经深入到代码层面了(这块还没看…!!!)


NVIDIA GPU架构发展:chip、Superchip、Tray、DGX B200 NVL72、DGX SuperPOD、大规模集群解决方案
【算力提升】纳米制造工艺、晶体管的堆多、硬件的架构、封装能力(多Die合封)、提升网络带宽、减少通信延时
(1)现在训练一个大模型,实际上的HFU 只能达到50%,有大量的时间都是在做通讯、互传数据、等待和同步相关的问题
(2)我需要聚焦的就是在:提升网络带宽的解决方案!
(3)NPU卡间互联协议(灵衢架构、AMD&Google的UALink )与 XCCL的关系是啥?
---- 灵衢、UALink 应该是对标 NVLink 这样的架构,是NPU卡间互联协议的重构与优化,以提升 all2all 的通信效率;
---- XCCL是不同服务器之间的网络通信库

带宽、网卡
CPU、GPU、NPU 芯片基础
华为 Ascend 产品

NVLink的发展 & 结构
NVLink 拓扑、DGX 硬件渲染图

集合通讯概览
(1)大模型对AI集群训练的诉求:大带宽、强同步
通信方式(内存共享、PCIe、NVLink直连模式、TCP/IP、RDMA)、点对点通信、集合通信
XCCL、NCCL、HCCL通信库

解析⼈⼯智能发展及技术架构 解析⼈⼯智能发展及技术架构 ⼀、 ⼈⼯智能技术发展概述 (⼀) ⼈⼯智能技术流派发展简析 让机器实现⼈的智能,⼀直是⼈⼯智能学者不断追求的⽬标,不同学科背景或应⽤领域的学 者,从不同⾓度,⽤不同的⽅法,沿着不同的途径对智能进⾏了探索。其中,符号主义、连接 主义和⾏为主义是⼈⼯智能发展历史上的三⼤技术流派。 符号主义⼜称为逻辑主义,在⼈⼯智能早期⼀直占据主导地位。该学派认为⼈⼯智能源于数学 逻辑,其实质是模拟⼈的抽象逻辑思维,⽤符号描述⼈类的认知过程。早期的研究思路是通过 基本的推断步骤寻求完全解,出现了逻辑理论家和⼏何定理证明器等。上世纪70年代出现了⼤ 量的专家系统,结合了领域知识和逻辑推断,使得⼈⼯智能进⼊了⼯程应⽤。PC机的出现以及 专家系统⾼昂的成本,使符号学派在⼈⼯智能领域的主导地位逐渐被连接主义取代。 连接主义⼜称为仿⽣学派,当前占据主导地位。该学派认为⼈⼯智能源于仿⽣学,应以⼯程技 术⼿段模拟⼈脑神经系统的结构和功能。连接主义最早可追溯到1943年麦卡洛克和⽪茨创⽴的 脑模型,由于 受理论模型、⽣物原型和技术条件的限制,在20世纪70年代陷⼊低潮。直到1982年霍普菲尔特 提出的Hopfield神经⽹络模型和 986年鲁梅尔哈特等⼈提出的反向传播算法,使得神经⽹络的理 论研究取得了突破。2006年,连接主义的领军者 Hinton 提出了深度学习算法,使神经⽹络的能 ⼒⼤⼤提⾼。2012年,使⽤深度学习技术的AlexNet模型在 ImageNet 竞赛中获得冠军。 ⾏为主义⼜称为进化主义,近年来随着AlphaGo取得的突破⽽受到⼴泛关注。该学派认为⼈⼯ 智能源于控制论,智能⾏为的基础是"感知—⾏动"的反应机制,所以智能⽆需知识表⽰,⽆需推 断。智能只是在环境交互作⽤中表现出来,需要具有不同的⾏为模块环境交互,以此来产 ⽣复杂的⾏为。 在⼈⼯智能的发展过程中,符号主义、连接主义和⾏为主义等流派不仅先后在各⾃领域取得了 成果,各学派也逐渐⾛向了相互借鉴和融合发展的道路。特别是在⾏为主义思想中引⼊连接主 义的技术,从⽽诞⽣了深度强化学习技术,成为AlphaGo战胜李世⽯背后最重要的技术⼿段。 (⼆) 深度学习带动本轮⼈⼯智能发展 深度学习已经在语⾳识别、图像识别等领域取得突破。深度学习全称深度神经⽹络,本质上是 多层次的⼈⼯神经⽹络算法,即从结构上模拟⼈脑的运⾏机制,从最基本的单元上模拟了⼈类 ⼤脑的运⾏机制。深度学习已经开始在计算机视觉、语⾳识别、⾃然语⾔理解等领域取得了突 破。在语⾳识别领域,2010年,使⽤深度神经⽹络模型的语⾳识别相对传统混合⾼斯模型识别 错误率降低超过 20%,⽬前所有的商⽤语⾳识别算法都基于深度学习。在图像分类领域,⽬前 针对ImageNet数据集的算法分类精度已经达到了 95%以上,可以⼈的分辨能⼒相当。深度学 习在⼈脸识别、通⽤物体检测、图像语义分割、⾃然语⾔理解等领域也取得了突破性的进展。 海量的数据和⾼效的算⼒⽀撑是深度学习算法实现的基础。深度学习分为训练(training)和推断 (inference)两个环节。训练需要海量数据输⼊,训练出⼀个复杂的深度神经⽹络模型。推断指利 ⽤训练好的模型,使⽤待判断的数据去"推断"得出各种结论。⼤数据时代的到来,图形处理器 (Graphics Processing Unit,GPU)等各种更加强⼤的计算设备的发展,使得深度学习可以充 分利⽤海量数据(标注数据、弱标注数据或⽆标注数据),⾃动地学习到抽象的知识表达,即 把原始数据浓缩成某种知识。当前基于深度学习的⼈⼯智能技术架构如图1所⽰。 ⼆、基于深度学习的⼈⼯智能技术现状 (⼀)基于深度学习的⼈⼯智能技术体系综述 当前,基于深度学习的⼈⼯智能算法主要依托计算机技术体系架构实现,深度学习算法通过封 装⾄软件框架1的⽅式供开发者使⽤。软件框架是整个技术体系的核⼼,实现对⼈⼯智能算法的 封装,数据的调⽤以及计算资源的调度使⽤。为提升算法实现的效率,其编译器及底层硬件技 术也进⾏了功能优化。具体架构请见图1中的基础硬件层、深度神经⽹络模型编译器及软件框架 三层。 本章所探讨的⼈⼯智能技术体系主要包含三个维度,⼀是针对⼈⼯智能算法原理本⾝的探讨, ⼆是对算法实现所依托的技术体系进⾏概述,三是针对深度学习所需的数据进⾏分析。 1. 基础硬件层 基础硬件层为算法提供了基础计算能⼒。硬件层涵盖范围除了中央处理器(Central Processing Unit,CPU)及GPU外,还包括为特定场景应⽤⽽定制的计算芯⽚,以及基于计算芯⽚所定制 的服务器,包括 GPU 服务器集群,各类移动终端设备以及类脑计算机等。 2. 深度神经⽹络模型编译器 深度神经⽹络模型编译器是底层硬件和软件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值