GPU技术全景：推动未来计算的新动力-3

本文链接：https://blog.csdn.net/HPC_factory/article/details/139980782

6、主流厂家

GPU芯片市场主要由几家国际巨头主导，这些公司在图形处理和并行计算领域拥有深厚的技术积累和市场份额。以下是一些主流的GPU芯片厂家：

6.1NVIDIA（英伟达）：

NVIDIA是GPU领域的领导者，尤其在游戏、专业可视化、数据中心、AI计算等领域占据主导地位。其产品包括面向消费者的GeForce系列，面向专业工作站的Quadro系列，以及专为数据中心和高性能计算设计的Tesla系列。NVIDIA还推出了用于数据中心加速计算的Blackwell架构GPU，以及支持实时光线追踪技术的RTX系列GPU。

NVIDIA GPU从Fermi到Blankwell共9代架构，时间跨度从2010年至2024年，具体包括费米（Feimi）、开普勒（Kepler）、麦克斯韦（Maxwell）、帕斯卡（Pashcal）、伏特（Volt）、图灵（Turing）、安培（Ampere）和赫柏（Hopper）和布莱克韦尔（Blackwell）架构。经过15年的发展，CUDA已成为NVIDIA的技术“护城河”，Tensor Core5.0，NVLink5.0，NVswitch4.0，TransformerEngine2.0等技术迭代更新，正如英伟达公司官方宣传语所言：“人工智能计算领域的领导者，推动了AI、HPC、游戏、创意设计、自动驾驶汽车和机器人开发领域的进步。”

架构名称	中文名字	发布时间	核心参数	特点&优势	纳米制程	代表型号
Fermi	费米	2010	16个SM，每个SM包含32个CUDA Cores，一共512 CUDA Cores	首个完整GPU计算架构，支持与共享存储结合的Cache层次GPU架构，支持ECC GPU架构	40/28nm, 30亿晶体管	Quadro 7000
Kepler	开普勒	2012	15个SMX，每个SMX包括192个FP32+64个FP64 CUDA Cores	游戏性能大幅提升，首次支持GPU Direct技术	28nm, 71亿晶体管	K80, K40M
Maxwell	麦克斯韦	2014	16个SM，每个SM包括4个处理块，每个处理块包括32个CUDA Cores+8个LD/ST Unit + 8 SFU	每组SM单元从192个减少到每组128个，每个SMM单元拥有更多逻辑控制电路	28nm, 80亿晶体管	M5000, M4000GTX 9XX系列
Pascal	帕斯卡	2016	GP100有60个SM，每个SM包括64个CUDA Cores，32个DP Cores	NVLink第一代，双向互联带宽160GB/s，P100拥有56个SM HBM	16nm, 153亿晶体管	P100, P6000, TTX1080
Volta	伏特	2017	80个SM，每个SM包括32个FP64+64 Int32+64 FP32+8个Tensor Cores	NVLink2.0，Tensor Cores第一代，支持AI运算，NVSwitch1.0	12nm, 211亿晶体管	V100, TiTan V
Turing	图灵	2018	102核心92个SM，SM重新设计，每个SM包含64个Int32+64个FP32+8个Tensor Cores	Tensor Core2.0，RT Core第一代	12nm, 186亿晶体管	T4，2080TI, RTX 5000
Ampere	安培	2020	108个SM，每个SM包含64个FP32+64个INT32+32个FP64+4个Tensor Cores	Tensor Core3.0，RT Core2.0，NVLink3.0，结构稀疏性矩阵MIG1.0	7nm, 283亿晶体管	A100, A30系列
Hopper	赫柏	2022	132个SM，每个SM包含128个FP32+64个INT32+64个FP64+4个Tensor Cores	Tensor Core4.0，NVlink4.0，结构稀疏性矩阵MIG2.0	4nm, 800亿晶体管	H100
Blackwell	布莱克韦尔	2024	-	Tensor Core5.0，NVlink5.0, 第二代Transformer引擎，支持RAS	4NP, 2080亿晶体管	B200

6.1.1 Blackwell芯片

Blackwell芯片是由英伟达（NVIDIA）公司研发的高性能GPU，它是基于NVIDIA最新架构设计的旗舰产品。以下是Blackwell芯片的一些关键信息：

•官方名称：NVIDIA Blackwell GPU，其中第一款产品命名为GB200。

•晶体管数量：Blackwell架构的GPU拥有惊人的2080亿个晶体管，这一数量体现了其复杂度和计算能力的提升。

•制造工艺：采用台积电（TSMC）的4纳米（4NP）工艺制造，这一工艺是专门为Blackwell GPU定制的，旨在突破传统光刻技术的限制，实现更密集的晶体管集成。

•设计目标：Blackwell芯片专为未来数据中心和AI应用设计，集成了多种先进技术，如高带宽内存(HBM)、Chiplet先进封装技术，以及优化的片内外通信，以构建一个强大的计算系统。

•性能特点：该芯片在架构设计上强调了并行计算能力和效率，能够处理极其复杂和数据密集型的任务，如深度学习、高性能计算、大数据分析等。

•应用场景：预期广泛应用于云游戏、数据中心、超级计算机、专业可视化、AI推理和训练等场景，推动这些领域技术的革新和性能的飞跃。

•产品线：Blackwell芯片被用于NVIDIA的高端产品中，如DGX系统（用于AI研究和数据中心）和可能的高端游戏显卡（虽然后者未明确提及，但基于NVIDIA的惯例，类似的高性能GPU技术常会惠及游戏市场）。

Blackwell芯片的推出，不仅代表了NVIDIA在GPU技术上的重大突破，也是其在人工智能、数据中心市场布局中的重要一步，预示着计算和AI领域的新一轮性能竞赛和技术创新。

当NVIDIA最新技术路线图公布，“NVIDIA计划之后每年推出一款新的GPU架构，明年将升级Blackwell芯片，进一步提升AI计算的性能和效率。”黄仁勋这样说。升级后的Blackwell芯片将包括全新的GPU、基于Arm的新CPU——Vera。同时也将带来采用NVLink 6、CX9 SuperNIC和X1600的高级网络平台。据悉，下一代CPU被命名为“Vera”，GPU则为“Rubin”，灵感来源于宇宙暗物质研究先驱、美国女天文学家Vera Rubin。这些新架构将覆盖整个数据中心GPU产品线，打破以往两年更新一代的传统。据透露，NVIDIA 下一代R系列AI芯片或将采用台积电3纳米制程工艺，使用CoWoS-L封装技术，搭载新一代的HBM4高带宽内存技术，有望在2025年第四季度实现大规模生产。

黄仁勋强调，NVIDIA的技术创新步伐将每年加快，通过持续的技术突破，为数据中心、AI工厂、消费级设备和机器人等提供强大的计算能力，推动新一轮的工业革命。

6.1.2 Grace芯片

NVIDIA Grace 是NVIDIA推出的一款基于Arm架构的数据中心CPU，旨在为高性能计算、大型语言模型、AI推理和机器学习等高要求的工作负载提供强大的计算能力。Grace CPU 是NVIDIA首次进入数据中心CPU市场的标志性产品，其设计重点在于与NVIDIA的GPU形成最佳协同，以实现极致的性能和效率。以下是NVIDIA Grace的一些关键特性：

1. Arm架构：NVIDIA Grace 基于Arm Neoverse内核，采用定制设计，以优化对现代数据中心应用的处理能力，尤其是针对AI和高性能计算领域。

2. 高性能与能效：Grace CPU 通过高度优化的架构设计，旨在提供比现有数据中心CPU更高的性能和能效比，特别适合处理大规模并行计算任务。

3. LPDDR5x内存支持：Grace 是首个宣布支持LPDDR5x内存的服务器CPU，这种内存技术提供了更高的带宽和更低的功耗，有助于提升整体系统性能和能效。

4. 与NVIDIA GPU的紧密集成：Grace CPU 与NVIDIA的GPU之间通过NVLink-C2C（Coherent Chiplet Fabric）技术实现高速互连，这种创新的互连技术可以提供更高的数据传输速率，使得CPU与GPU之间的通信更加高效，非常适合于AI训练和推理、科学计算等应用场景。

5. 目标市场与应用：NVIDIA Grace 主要面向超级计算机、大型数据中心、云服务提供商等市场，特别是在需要处理大规模数据集、执行复杂的机器学习模型和高性能计算任务的场景下。

6. 客户案例：NVIDIA Grace 已宣布将被用于瑞士国家超级计算中心的“Alps”超级计算机和美国能源部洛斯阿拉莫斯国家实验室的“Venado”超级计算机，这两个项目都计划于2023年启用。

NVIDIA Grace 的发布，标志着NVIDIA在数据中心市场的进一步拓展，不仅丰富了其数据中心产品线，也为行业带来了新的竞争格局，特别是在推动Arm架构在数据中心应用方面迈出了重要一步。

NVIDIA Grace Hopper 超级芯片的主要创新如下：

NVIDIA Grace CPU ：

ü具有单个 CPU NUMA 节点的高开发人员生产率。

üNVIDIA 可扩展一致性结构（ SCF ）网格和分布式缓存，内存带宽高达 3.2 TB / s 。

ü最多 64x PCIe Gen5 通道。

ü高达 512 GB 的 LPDDR5X 内存，提供高达 546 GB / s 的内存带宽。

ü高达 117 MB 的三级缓存。

ü多达 72x Arm Neoverse V2 内核，每个内核配备 Armv9.0-A ISA 和 4 × 128 位 SIMD 单元。

NVIDIA Hopper GPU ：

üNVLink 4 和 PCIe 5 。

ü60 MB 二级缓存。

ü高达 96 GB 的 HBM3 内存，传输速度高达 3000 GB / s 。

ü与 NVIDIA A100 GPU 相比，多达 144 个 SM ，具有第四代 Tensor 核心、 transformer 引擎、 DPX 和高 3 倍的 FP32 和 FP64 。

NVIDIA NVLink-C2C ：

ü扩展 GPU 内存功能使料斗 GPU 可将所有 CPU 内存寻址为 GPU 内存。每个 Hopper GPU 可以在超级芯片内寻址多达 608 GB 的内存。

ü总带宽高达 900 GB / s ， 450 GB / s / dir 。

üGrace CPU 和 Hopper GPU 之间的硬件相干互连。

NVIDIA NVLink 交换机系统：

ü每个 NVLink 连接的 Hopper GPU 可以寻址网络中所有超级芯片的所有 HBM3 和 LPDDR5X 内存，最多可寻址 150 TB 的 GPU 内存。

ü使用 NVLink 4 连接多达 256 倍 NVIDIA Grace Hopper 超级芯片。

6.2AMD（超威半导体）：

AMD是NVIDIA的主要竞争对手，提供包括Radeon系列GPU用于游戏和图形处理，以及Radeon Pro系列面向专业设计和工作站市场。AMD还拥有面向数据中心和AI计算的Instinct系列GPU，提供高性能的计算能力。其GPU以性价比高著称，近年来在技术和市场占有率上均有显著提升。

在2024年Computex大会上，AMD展示了其最新的图形处理单元（GPU）——AMD Instinct MI350。这款GPU不仅配备了令人印象深刻的288GB内存，而且承诺在AI推理性能方面实现高达35倍的提升——看得出AMD正准备紧紧跟着英伟达的技术路线不断往前。

AMD Instinct MI350的核心技术在于其全新的CDNA 4架构。CDNA 4是AMD专为AI和高性能计算（HPC）设计的架构，它将在2025年与MI350一同推出。相比其前代产品CDNA 3，CDNA 4带来了显著的性能提升，特别是在AI推理方面。

● HBM3E内存：提升计算能力的关键

AMD Instinct MI350不仅在架构上进行了革新，还配备了最新的HBM3E高带宽内存。与前代产品相比，HBM3E提供了更大的带宽和更高的效率，使得MI350能够更快地处理海量数据。288GB的内存容量也意味着可以在单个GPU上运行更大规模的模型，这对于深度学习和大数据分析等应用至关重要。

● AI市场的激烈竞争

AMD在本次大会上还展示了其当前的旗舰产品MI325X，这款GPU同样使用了高达288GB的HBM3E内存，旨在与NVIDIA的H200展开竞争。MI325X已经表现出色，但AMD显然希望通过MI350进一步巩固其在AI市场的地位。MI350不仅采用了更先进的3nm制造工艺，还在推理性能上大幅超越了现有的GPU。

6.2.1 MI325X

AMD MI325X 是AMD公司推出的一款高性能的人工智能（AI）加速器，属于AMD Instinct系列。这款产品在2024年COMPUTEX台北国际电脑展上由AMD CEO苏姿丰博士正式发布，并计划于2024年第四季度上市。以下是关于AMD MI325X的一些关键信息和亮点：

•架构与设计：MI325X基于先进的Zen 4架构，这是AMD处理器架构的最新进展，采用更先进的制造工艺（可能是台积电的5纳米或更先进工艺），旨在提供更高的指令级并行性和能效比。

•性能表现：相比竞争对手英伟达的H200产品，MI325X在性能上声称拥有显著优势，据称在某些工作负载下可提供比H200快30%的性能。它特别针对AI推理和训练、高性能计算（HPC）以及要求严苛的数据中心应用进行了优化。

•内存与I/O：该芯片搭载了先进的HBM3E（High Bandwidth Memory）技术，提供了更高的内存带宽，有助于加速数据密集型任务的处理。同时，它支持PCIe 5.0或更先进的接口标准，以确保高效的I/O性能。

•能效：在提供高性能的同时，AMD也强调了MI325X的能效，这对于数据中心运营而言是一个重要的考量因素，能够帮助降低长期的运营成本和环境影响。

•安全性与加密：考虑到数据中心应用的安全性需求，MI325X集成了多种安全特性，包括硬件级别的加密加速，以保护数据和模型的安全。

•应用领域：MI325X适用于各种AI和HPC场景，包括但不限于深度学习、大规模数据分析、科学模拟、云计算服务和边缘计算等。

AMD MI325X的推出，标志着AMD在加速器市场上的持续发力，特别是针对快速增长的AI和数据中心市场需求，旨在为用户提供高性能、低功耗的解决方案，进一步增强其在数据中心和AI加速领域的竞争力。

6.3Intel（英特尔）：

虽然Intel传统上以CPU闻名，但近年来也开始加大对GPU的投入。Intel计划推出面向数据中心和高性能计算的Xe架构GPU，分为多个系列，包括面向数据中心和AI应用的Xe-HPC（Ponte Vecchio）、面向游戏和创作者的Xe-HPG（Arc系列），以及集成于处理器的Xe-LP（Tiger Lake等处理器中的集成显卡）。Intel的GPU战略旨在覆盖从轻量级到最顶级的计算需求。