牧尘同学-CSDN博客

转载【AI系统】CUDA 编程模式

前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析，结合英伟达 CUDA 实现对 SIMD 和 SIMT 进行了对比，本文将以英伟达 GPU 为例，讲解 GPU 的编程模型。

2024-12-14 09:04:02 157

转载【AI系统】SIMD & SIMT 与 CUDA 关系

前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析，结合 NVIDIA CUDA 实现对 SIMD 和 SIMT 进行了对比，本文将对不同并行的编程方式进行讲解，以英伟达 GPU 为例，讲解 GPU 的编程模型。

2024-12-14 09:02:33 144

转载【AI系统】SIMD & SIMT 与芯片架构

为了进一步探讨 SIMD/SIMT 与 AI 芯片之间的关系，本文将详细介绍 SIMD 单指令多数据和 SIMT 单指令多线程的计算本质，以及对 NVIDIA CUDA 底层实现 SIMD/SIMT 的原理进行讲解。

2024-12-14 09:01:52 326

本篇幅主要探讨 SIMD 和 SIMT 的主要区别与联系，SIMT 与 CUDA 编程之间的关系，并且会讨论 GPU 在 SIMT 编程本质，SIMD、SIMT 与 DSA 架构，DSA 架构的主要形态。目前已经有大量的 AI 芯片研发上市，但是如何开发基于硬件的编译栈与编程体系，让开发者更好地使用 AI 芯片，更好的发挥 AI 芯片的算力，让生态更加繁荣，因此理解 AI 芯片的编程体系就显得尤为重要。

2024-12-14 09:01:08 63

转载【AI系统】昇腾数据布局转换

NHWC 的数据排布方式更适合多核 CPU 运算， NCHW 的数据排布方式更适合 GPU 并行运算。那么接下来让我们了解一下在华为昇腾的 NPU 中，这种特征图的存储方式。截止到 2024 年，华为昇腾在私有格式的数据处理和特殊的数据形态越来越少，主要是得益于 AI 编译器和软件的迭代升级，更加合理地兼容业界主流的算子和数据排布格式。

2024-12-14 08:57:47 465

转载【AI系统】昇腾 AI 核心单元

NHWC 的数据排布方式更适合多核 CPU 运算， NCHW 的数据排布方式更适合 GPU 并行运算。那么接下来让我们了解一下在华为昇腾的 NPU 中，这种特征图的存储方式。截止到 2024 年，华为昇腾在私有格式的数据处理和特殊的数据形态越来越少，主要是得益于 AI 编译器和软件的迭代升级，更加合理地兼容业界主流的算子和数据排布格式。

2024-12-14 08:56:35 85

转载【AI系统】昇腾 AI 处理器

本文将深入介绍昇腾 AI 处理器的核心单元——AI Core，以及其背后的达芬奇架构。昇腾 AI 处理器是华为针对 AI 领域设计的专用处理器，其核心 AI Core 采用了特定域架构（Domain Specific Architecture，DSA），专门为深度学习算法中常见的计算模式进行优化。通过本文内容的学习，读者将能够理解昇腾 AI 处理器的达芬奇架构如何通过其独特的设计，实现对深度学习算法的高效加速，以及如何通过优化数据通路和控制流程来提升整体的计算性能。

2024-12-14 08:55:58 272

转载【AI系统】昇腾 AI 架构介绍

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI 计算基础设施、行业应用及服务，包括昇腾系列处理器、系列硬件、CANN（Compute Architecture for Neural Networks，异构计算架构）、AI 计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。

2024-12-14 08:55:20 591

转载【AI系统】寒武纪介绍

中科寒武纪科技股份有限公司成立于 2016 年 3 月 15 日，其名字 Cambricon 是由 Cambrian（寒武纪）和 Silicon（硅）组合成。企业使命是：为客户创造价值，成为持续创新的智能时代领导者，企业愿景是让机器更好地理解和服务人类。寒武纪提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。下面我们将重点展开寒武纪产品背后的相关芯片架构和模块。

2024-12-14 08:54:21 1090

转载【AI系统】谷歌 TPUv4 与光路交换

TPU v4 通过采用 7nm 工艺，翻倍的 MXU 数量，以及显著增加的内存容量和带宽，实现了性能的大幅提升。特别引人注目的是 Sparse Core 的引入，它专门针对稀疏计算进行了优化，使得 TPU v4 在处理深度学习中的 Embedding 层时更加高效。此外，3D Torus 互联方式的首次亮相，以及 TPU v4 Pod 的构建，展示了谷歌在大规模并行计算和高效互联方面的突破。Palomar 光路开关芯片的开发，利用 MEMS 技术，进一步降低了系统延迟和功耗，同时减少了网络成本。

2024-12-14 08:53:47 120

转载【AI系统】谷歌 TPUv3 POD 形态

TPU v2 的技术革新：谷歌的 TPU v2 通过增加核间互连结构（ICI），使得最多 256 个 TPU v2 能够组成一个高效的超级计算机。这种结构支持高效的大规模数据处理，尤其适合神经网络的训练。TPU v3 的性能提升：谷歌进一步扩展其技术，通过组合 1024 个 TPU v3 创建了 TPU POD 超级计算机。该服务器采用水冷系统，功率提升高达 1.6 倍，而模具尺寸仅比 TPU v2 增加 6%。高效的集群构建。

2024-12-14 08:53:06 124

转载【AI系统】谷歌 TPUv2 训练芯片

在 2017 年，谷歌更新了他们的 TPU 序列。谷歌将这一代 TPU 称之为 “用于训练神经网络的特定领域超级计算机”，那么显而易见，相比于专注于推理场景的 TPU v1，TPU v2 将自己的设计倾向放到了训练相关的场景。如果回顾历史，在 2017 年前后，深度学习跨时代的工作如雨后春笋般涌现，也就是那年，谷歌在 NIPS（也就是当今的 NeurIPS）发布了那篇革命性的《Attention Is All You Need》，从而彻底革新了 NLP 的世界，也引领了未来十年的潮流。

2024-12-14 08:51:04 89

转载【AI系统】谷歌 TPU v1-脉动阵列

脉冲阵列就是 TPU 的核心，也是本文最重要的内容。脉冲阵列的英文名 Systolic Array 就是源于它处理数据的节奏就像心跳一样，于是便有了这个名字。在我们讲到具体的实现之前，我们需要先回顾一下 Img2Col 这个算法。我们知道，在推理场景，在 2017 年附近，卷积神经网络占据了当时场景的半壁江山。在卷积计算的时候，我们实际上不会对真正地对图片或者 feature map 进行卷积，而是会用 Img2Col 的方式把图片变成矩阵，把卷积换成矩阵相乘的方式。

2024-12-14 08:50:08 165

转载【AI系统】谷歌 TPU 历史发展

在本文中，我们将深入探讨谷歌的 Tensor Processing Unit（TPU）的发展历程及其在深度学习和 AI 领域的应用。TPU 是谷歌为加速机器学习任务而设计的专用集成电路（ASIC），自首次推出以来，TPU 经历了多次迭代升级，包括 TPU v1、v2、v3 和 v4，以及 Edge TPU 和谷歌 Tensor 等产品。这些 TPU 芯片在制程技术、芯片大小、内存容量、时钟速度、内存带宽和热设计功耗等方面都有显著的提升，为数据中心和边缘设备提供了强大的计算能力。

2024-12-14 08:49:09 167

转载【AI系统】NV Switch 深度解析

在当今的高性能计算领域，英伟达的 GPU 技术无疑是一颗璀璨的明星。随着 AI 和机器学习技术的飞速发展，对于计算能力的需求日益增长，GPU 之间的互联互通变得尤为重要。在这样的背景下，英伟达推出了 NVLink 协议，以及基于此技术的多 GPU 互联解决方案——NV Switch。本文将深入探讨 NV Switch 的发展历程、工作原理以及其在构建高性能服务器集群中的关键作用，为读者揭开这一技术背后神秘的面纱。

2024-12-14 08:47:56 524

转载【AI系统】NVLink 原理剖析

随着 AI 技术的飞速发展，大模型的参数量已经从亿级跃升至万亿级，这一变化不仅标志着 AI 的显著提升，也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型，需要依赖于大规模的 GPU 服务器集群，它们通过高速网络相互连接，以便进行快速、高效的数据交换。但是，即便是最先进的 GPU 也可能因为网络瓶颈而无法充分发挥其计算潜力，导致整个算力集群的性能大打折扣。这一现象凸显了在构建大规模 GPU 集群时，仅仅增加 GPU 数量并不能线性增加集群的总体算力。

2024-12-13 09:54:43 253

转载【AI系统】分布式通信与 NVLink

在进入大模型时代后，大模型的发展已成为 AI 的核心，但训练大模型实际上是一项比较复杂的工作，因为它需要大量的 GPU 资源和较长的训练时间。此外，由于单个 GPU 工作线程的内存有限，并且许多大模型的大小已经超出了单个 GPU 的范围。所以就需要实现跨多个 GPU 的模型训练，这种训练方式就涉及到了分布式通信和 NVLink。当谈及分布式通信和 NVLink 时，我们进入了一个引人入胜且不断演进的技术领域，本节我们将简单介绍分布式通信的原理和实现高效分布式通信背后的技术 NVLink 的演进。

2024-12-13 09:52:57 89

转载【AI系统】Tensor Core 深度剖析

Tensor Core 是用于加速深度学习计算的关键技术，其主要功能是执行神经网络中的矩阵乘法和卷积运算。通过利用混合精度计算和张量核心操作，Tensor Core 能够在较短的时间内完成大量矩阵运算，从而显著加快神经网络模型的训练和推断过程。具体来说，Tensor Core 采用半精度(FP16)作为输入和输出，并利用全精度(FP32)进行存储中间结果计算，以确保计算精度的同时最大限度地提高计算效率。

2024-12-13 09:46:24 356

转载【AI系统】Tensor Core 架构演进

自 Volta 架构时代起，英伟达的 GPU 架构已经明显地转向深度学习领域的优化和创新。2017 年，Volta 架构横空出世，其中引入的张量核心（Tensor Core）设计可谓划时代之作，这一设计专门针对深度学习计算进行了优化，通过执行融合乘法加法操作，大幅提升了计算效率。与前一代 Pascal 架构相比，Volta 架构在深度学习训练和推理方面的性能提升了 3 倍，这一飞跃性进步为深度学习的发展提供了强大的硬件支持。

2024-12-13 09:44:05 156

转载【AI系统】Tensor Core 基本原理

在英伟达的通用 GPU 架构中，主要存在三种核心类型：CUDA Core、Tensor Core 以及 RT Core。其中，Tensor Core 扮演着极其关键的角色。Tensor Core 是针对深度学习和 AI 工作负载而设计的专用核心，可以实现混合精度计算并加速矩阵运算，尤其擅长处理半精度（FP16）和全精度（FP32）的矩阵乘法和累加操作。Tensor Core 在加速深度学习训练和推理中发挥着重要作用。

2024-12-13 09:42:44 415

转载【AI系统】GPU 架构回顾（从2018年-2024年）

平时训练模型的过程中使用更多的是 FP32 和 FP16，TF32 在指数位有 8 位，FP16 在指数为有 5 位，因此 FP32 的位宽比 FP16 更多，小数位决定精度，FP32 在小数位有 23 位，FP16 只有 10 位，在 AI 训练的过程中很多时候 FP16 是够用的，但是动态范围会有限制，因此提出 TF32，指数位保持和 FP32 相同，小数位和 FP16 保持相同，BF16 的指数位和 FP32、TF32 相同，但是小数位少了三位。数百个张量核并行运行，大幅提高吞吐量和计算效率。

2024-12-13 09:41:27 73

转载【AI系统】GPU 架构回顾（从2010年-2017年）

1999 年，英伟达发明了 GPU（graphics processing unit），本文将介绍英伟达 GPU 从 Fermi 到 Blackwell 共 9 代架构，时间跨度从 2010 年至 2024 年，具体包括费米（Feimi）、开普勒（Kepler）、麦克斯韦（Maxwell）、帕斯卡（Pashcal）、伏特（Volt）、图灵（Turing）、安培（Ampere）和赫柏（Hopper）和布莱克韦尔（Blackwell）架构。

2024-12-13 09:40:29 147

转载【AI系统】GPU 架构与 CUDA 关系

本文会讲解英伟达 GPU 硬件的基础概念，其次会讲解 CUDA（Compute Unified Device Architecture）并行计算平台和编程模型，详细讲解 CUDA 线程层次结构，最后将讲解 GPU 的算力是如何计算的，这将有助于计算大模型的算力峰值和算力利用率。

2024-12-13 09:39:38 137

转载【AI系统】为什么 GPU 适用于 AI

为什么 GPU 适用于 AI 计算或者为什么 AI 训练需要使用 GPU，而不是使用 CPU 呢？本文内容主要探究 GPU AI 编程的本质，首先回顾卷积计算是如何实现的，然后探究 GPU 的线程分级，分析 AI 的计算模式和线程之间的关系，最后讨论矩阵乘计算如何使用 GPU 编程去提升算力利用率或者提升算法利用率。

2024-12-13 09:38:09 150

转载【AI系统】GPU 工作原理

前面的文章对 AI 计算体系和 AI 芯片基础进行讲解，在 AI 芯片基础中关于通用图形处理器 GPU 只是简单地讲解了主要概念，将从 GPU 硬件基础和英伟达 GPU 架构两个方面讲解 GPU 的工作原理。英伟达 GPU 有着很长的发展历史，整体架构从 Fermi 到 Blankwell 架构演变了非常多代，其中和 AI 特别相关的就有 Tensor Core 和 NVLink。本文首先讲解 CPU 和 GPU 架构的区别，之后以AXY。

2024-12-13 09:36:28 157

转载【AI系统】超异构计算

目前这个问题有三个可能的解，如下图，他们分别为：硬件定义软件（HDW）：硬件定义软件（HDW）是一种设计理念，它强调通过硬件来定义软件的功能和架构。在 HDW 模式下，软件的开发和部署更加依赖于底层硬件的特性，能够充分发挥硬件的性能优势。HDW 的核心思想是通过硬件加速器、专用指令集等技术，为软件提供硬件层面的支持，使软件能够更高效地运行。HDW 能够充分利用硬件的并行计算能力，显著提升软件的性能。软件定义硬件（SDH）：软件定义硬件（SDH）是一种设计理念，它强调通过软件来定义硬件的功能和性能。

2024-12-13 09:35:14 74

空空如也

空空如也