图形处理器（GPU）的起源与演变：从像素推手到并行计算巨擘

摘要

本报告旨在全面记录图形处理器（GPU）的发展历史，追溯其从最初的简陋显示控制器到如今成为现代计算核心的演变历程。本报告首先将审视20世纪70至80年代的技术萌芽，这一时期街机游戏、家用电脑和早期个人电脑（PC）等不同计算生态系统共同奠定了专用图形硬件的基础。随后，报告将深入剖析20世纪90年代这一关键时期，3D加速器的诞生和图形API（应用程序编程接口）的标准化引发了激烈的市场竞争。报告将明确指出，NVIDIA GeForce 256及其硬件T&L（变换与光照）引擎的问世，是现代GPU诞生的标志性时刻；而GeForce 3和ATI Radeon 9700则开启了从固定功能硬件向可编程架构的革命性转变。本报告的核心部分将分析GPU历史上最深刻的变革：统一着色器架构的出现，它将GPU重塑为通用并行处理器，并无意中为人工智能（AI）革命奠定了基础。最后，报告将探讨当代架构的创新——包括硬件光线追踪、AI专用核心、小芯片（Chiplet）设计和先进的内存系统——这些技术正持续塑造着计算的未来。这不仅是一部组件的演进史，更是一个关于人类对交互式、逼真图形的不懈追求如何催生出21世纪最强大、最具变革性技术之一的故事。

第一章：专用图形硬件的先驱（20世纪70年代至80年代）

本章旨在构建GPU最终诞生前的技术背景。它揭示了一个核心概念：将图形任务从中央处理器（CPU）卸载到专用硬件并非单一的发明，而是源自不同计算生态系统思想的演进与融合，这些生态系统包括商业驱动创新的街机、注重用户体验的家用电脑以及以标准化为导向的商用PC世界。

1.1 黄金时代的熔炉：街机图形技术的锻造

“街机游戏的黄金时代”（20世纪70年代末至80年代初）是图形硬件创新的高风险试验场 1。在激烈的商业竞争驱动下，Taito、Namco和Atari等公司迅速从分立的晶体管-晶体管逻辑（TTL）电路（如1972年的《Pong》）转向基于Z80等廉价微处理器的更复杂系统 2。这一转变催生了更复杂的游戏逻辑和图形效果 1。

这一时期，显示技术存在一个根本性的分歧：光栅图形与矢量图形。

光栅图形（Raster Graphics） 是当时的主流技术，它使用像素网格（即帧缓冲）来创建图像。1979年，Namco为《Galaxian》设计的硬件是一个里程碑，它能够在滚动的星空背景上渲染多色的动画精灵（sprites）。这种硬件设计思路直接影响了任天堂的街机系统（如《Donkey Kong》）及其后的红白机（Nintendo Entertainment System）游戏主机 1。光栅图形技术能够创造出充满活力、色彩丰富的世界，使得《Pac-Man》（1980年）和《Frogger》（1981年）等游戏大受欢迎 1。

矢量图形（Vector Graphics） 是另一种竞争技术，它利用电子束直接在屏幕上绘制清晰锐利的线条。这种技术创造了一种独特的未来感外观，在Atari的《Asteroids》（1979年）和《Battlezone》（1980年）等热门游戏中得到了体现 1。然而，矢量技术最终未能普及，主要因为它存在显著的缺陷：矢量显示器制造成本高昂，容易出现故障，维修费用不菲，并且通常只能显示单色或极少数颜色。与之相比，彩色光栅显示器技术的快速进步和成本效益的提升，使得矢量图形在经济上对街机运营商不再具有吸引力 1。

街机开发者还利用2D精灵缩放技术（sprite-scaling）来实验伪3D图形。世嘉（Sega）在1981年推出的《Turbo》是这一领域的先驱，它采用了第三人称后视视角，并通过全彩精灵缩放来模拟深度感 1。这表明，在真正的多边形3D技术变得可行之前，业界早已开始了由硬件驱动的、旨在创造沉浸式3D体验的早期尝试。

街机市场的激烈竞争如同一场经济上的达尔文主义筛选，它优先选择了成本效益、可靠性和大众吸引力，而非纯粹的技术优越性。矢量图形的失败并非技术上的失败——它能产生更优越的线条质量——而是一个经济上的失败。这一现象确立了图形发展史中一个反复出现的重要主题：一项技术的成功不仅取决于其能力，还取决于其可制造性、成本以及它所能支持的体验广度。光栅图形之所以胜出，是因为它更便宜、更可靠，并且更适合制作那些能够吸引更广泛受众的、色彩鲜艳的角色驱动型游戏 6。这一早期市场的选择过程预示了未来PC市场的格局，即每帧成本和广泛的软件支持将成为成功的最终裁决者，其重要性往往超过了小众功能或原始性能。

1.2 家用电脑的定制芯片：Atari TIA与Amiga的创举

当街机专注于单一用途的设备时，20世纪70年代末至80年代的家用电脑市场则见证了定制协处理器的崛起。这些芯片旨在为特定平台提供图形和声音方面的竞争优势，将这些任务从主CPU中卸载出去。

Atari 2600游戏机（1977年）中的电视接口适配器（TIA） 是早期高度受限的图形芯片的典型代表 7。由杰·迈纳（Jay Miner）设计的TIA并非一个基于帧缓冲的系统。由于当时RAM成本极高，TIA逐行“实时”生成视频信号。CPU必须在阴极射线管（CRT）电子束的短暂水平回扫间隔内更新TIA的寄存器，以便为下一条扫描线改变图形 9。这要求程序员编写出时序精准到无可挑剔的代码。TIA的硬件是领域专用的，提供了固定的图形对象，如两个8像素的“玩家”精灵、两个“导弹”精灵、一个“球”以及一个简单的、镜像对称的20位游戏区域 9。它甚至包含了硬件碰撞检测功能，这显然是为游戏量身定制的设计 11。

Commodore Amiga 1000（1985年）则代表了家用电脑图形领域的一次巨大飞跃，这要归功于其革命性的定制芯片组，其概念设计同样出自杰·迈纳之手 7。其

原始芯片组（OCS） 由三个主要芯片构成：

Agnus：作为内存控制器，协调其他芯片和CPU的直接内存访问（DMA）。它内置了两个强大的协处理器：Blitter，用于高速内存块复制，是2D动画和窗口系统的关键；以及Copper，一个与视频同步的协处理器，能够在帧渲染中途改变芯片组寄存器（如调色板），从而在屏幕上显示远超单个帧缓冲技术限制的颜色数量 8。
Denise：主视频处理器，负责管理平面位图图形。它能够从4096色的调色板中显示多达32种颜色 13。
Paula：负责声音和输入/输出（I/O）的芯片 13。

这一架构如此超前，以至于Amiga被誉为第一台真正的多媒体电脑，但当时却常被误解并被市场部门错误地定位为一台“游戏机” 15。

Atari TIA和Amiga OCS芯片组代表了两种截然不同的图形加速哲学，其影响回响了数十年。TIA体现了一种诞生于极端硬件限制下的**“追逐光束”（race the beam）哲学，即CPU与显示硬件紧密同步，动态地创造图像。相比之下，Amiga芯片组则体现了一种“以内存为中心、协同处理”（memory-centric, co-processing）**的哲学，即一套功能丰富的专用协处理器（Blitter、Copper）在共享的内存池（帧缓冲）上运行，很大程度上独立于CPU。Amiga的模型，凭借其DMA驱动的协处理器在中央内存缓冲区上运行的模式，成为了现代GPU架构的直接概念鼻祖。TIA的设计完全受制于RAM的缺失，程序员必须在CRT电子束扫描屏幕时实时更新寄存器，这是一个实时同步的过程，CPU完全受制于显示时序 9。而Amiga的设计则围绕“芯片RAM”（一个共享内存池）构建，其协处理器在内存中执行操作，无需CPU干预，这是一个异步并行的过程 8。现代GPU正是沿用了Amiga的模式：CPU将命令和数据发送到GPU的显存（现代的芯片RAM），GPU内部的各种单元（着色器核心、纹理映射单元、光栅化处理单元等）并行处理这些数据，最终将一帧画面渲染到帧缓冲中。因此，TIA代表了一条因成本限制而终结的演化路径，而Amiga架构凭借其对DMA、专用协处理器和共享内存模型的专注，为图形加速的整个未来奠定了概念基础。

1.3 IBM PC与显示适配器的标准化

最初专注于商业应用的IBM PC生态系统走上了一条由标准化而非定制创新所定义的道路 16。这创造了一个稳定但技术上相对保守的平台。

PC图形标准演进

MDA（单色显示适配器，1981年）：提供高质量文本显示，但不支持图形，主要面向商业市场 17。
CGA（彩色图形适配器，1981年）：IBM首个彩色标准，技术非常原始。它在320x200分辨率下最多支持4种颜色，或在640x200分辨率下支持单色，颜色均来自一个固定的16色调色板 16。该卡基于摩托罗拉MC6845显示控制器构建 17。
EGA（增强图形适配器，1984年）：随PC/AT机型推出，是一次重大改进。EGA支持在640x350分辨率下显示16种颜色，这些颜色可从一个64色的调色板（红、绿、蓝每通道2位）中选择 16。它是一块复杂的卡，拥有自己的BIOS ROM，并采用平面内存布局 17。其高昂的初始价格减缓了其普及速度，直到兼容的克隆卡出现后情况才有所改观 19。
VGA（视频图形阵列，1987年）：随PS/2系列推出，VGA迅速成为PC图形的基准标准，并持续了十多年 21。它提供了一个320x200分辨率下的256色模式（即“Mode 13h”），以及一个640x480分辨率下的16色模式 17。至关重要的是，VGA使用模拟信号，这使其能够从一个庞大的262,144色调色板中选择256种颜色进行显示 17。

IBM PC平台的严格标准化（CGA、EGA、VGA）既是优势也是劣势。它创造了一个稳定的软件市场，但同时也抑制了与家用电脑领域相媲美的硬件创新。当Amiga在1985年展示其先进的多媒体能力时，大部分PC市场仍在使用远为原始的EGA 15。然而，正是这种稳定性，为后来20世纪90年代3D加速卡的蓬勃发展创造了一个庞大而同质化的市场。开发者可以面向一个单一、易于理解的基准（VGA）进行开发，而硬件公司则可以制造增强该基准的产品。PC最初的弱点（因标准僵化导致的创新缓慢）最终转变为其最大的优势（为第三方硬件创新提供了一个巨大的统一市场）。反观Amiga，其优势（高度集成、先进的系统）也成了其弱点（一个封闭、较小的市场，第三方难以在其内部进行创新）。

表1：PC图形标准演进（前3D时代）

标准 (适配器名称)	推出年份	最高分辨率	最高颜色数	调色板大小	关键特性/备注
MDA	1981	720x350 (文本)	单色	不适用	仅支持高质量文本显示。
CGA	1981	640x200	4色 (从16色固定调色板中选择)	16	PC的第一个彩色标准，功能非常有限。
EGA	1984	640x350	16色 (从64色调色板中选择)	64	采用平面内存，需要数字RGB显示器。
VGA	1987	640x480	256色 (从262,144色调色板中选择)	262,144	使用模拟信号，成为通用基准。

1.4 奠基概念：帧缓冲与2D硬件加速

所有基于光栅的图形系统都依赖于两个成为GPU发展核心的核心概念：帧缓冲和2D操作的硬件加速。

帧缓冲（Framebuffer） 是一块RAM区域，它包含了一个用于驱动视频显示的完整视频帧的位图数据 22。显示硬件会持续从这块内存中读取数据以刷新屏幕。帧缓冲的大小决定了显示的分辨率和颜色深度（例如，1位用于单色，8位用于256色） 22。这个概念是所有现代显卡的基石，现代显卡都包含大量专用显存（VRAM）作为帧缓冲 22。

位块传输（BitBLT） 是最基础的2D加速操作。它是一种硬件操作，能够将一个矩形的像素块（位图）从内存中的源位置高速复制到目标位置 25。这远比CPU逐像素复制数据要快得多。执行此操作的硬件单元称为“Blitter”，它是Amiga等先进系统的关键特性，对于使带有重叠窗口和动画光标的图形用户界面（GUI）响应迅速、易于使用至关重要 13。位块传输还可以执行布尔运算（AND, OR, XOR）来组合位图，从而实现透明精灵等效果 25。20世纪90年代初，PC上最早的“Windows加速卡”本质上就是专用的Blitter，旨在加速Windows GDI（图形设备接口）中的BitBlt等操作 26。

20世纪90年代初2D“GUI加速卡”的发展，是通往3D革命之路上一个关键但常被忽视的垫脚石。这些卡为后来的附加显卡市场建立了必要的基础设施和市场模式。它们证明了销售能够从CPU卸载工作的显卡的商业模式是可行的，创建了与操作系统（Windows GDI）交互的驱动程序架构，并使制造商熟悉了内存带宽和总线接口（ISA、VLB、PCI）等挑战 18。最早的2D/3D集成芯片正是这些2D加速卡的直接演进。3D革命并非凭空出现，它直接建立在不那么光鲜但商业上至关重要的2D加速卡市场所奠定的技术、制造和市场基础之上。整个行业已经知道如何制造和销售显卡，他们只需要增加一个新功能：3D。

第二章：3D加速的“寒武纪大爆发”（20世纪90年代）

本章详细阐述了图形硬件从简单的2D加速器演变为专用3D渲染引擎的动荡而变革的十年。这一时期的特点是竞争技术和API的混乱爆发，这是一个创新的“狂野西部”，最终为现代游戏PC奠定了基础。核心主题是从基于CPU的软件渲染过渡到通过固定功能管线实现的硬件加速渲染。

2.1 第一波浪潮：集成的2D/3D加速器

在20世纪90年代中期，S3、ATI和Matrox等老牌2D加速器供应商开始将基本的3D功能集成到他们现有的2D芯片上。这是对日益增长的3D游戏兴趣的回应，这一兴趣由《DOOM》等游戏和索尼PlayStation的推出所推动 31。这些是大众市场首次尝试3D加速。

S3 ViRGE（虚拟现实图形引擎，1995年）：作为最早的2D/3D加速器之一进行市场推广，ViRGE是S3成功的Trio64 2D芯片的直接后继者 29。它将VGA控制器、2D引擎和3D引擎集成到单个芯片上 29。虽然其2D性能非常出色，但其3D能力却臭名昭著。其3D引擎速度之慢，以至于在快速CPU上，其性能往往不如软件渲染，因此获得了“3D减速器”的恶名 34。尽管如此，由于S3的市场主导地位、低成本和强大的2D性能，它在OEM市场仍然销售良好 31。
ATI Mach64 / 3D Rage（1995-1996年）：ATI也遵循了类似的路径，发展了其成功的Mach64 2D加速器系列 30。Mach64 GT，后来被命名为
3D Rage，是ATI首款集成3D加速功能的芯片 30。3D Rage II提供了更好的性能，是3dfx Voodoo之外最早的可行的2D/3D替代品之一，但它在3D性能上仍不是市场领导者 37。
Matrox Mystique（1996年）：以其Millennium系列显卡的高端2D性能而闻名的Matrox，凭借Mystique进入了消费级3D市场 40。它拥有强大的2D性能，并且在3D速度上比S3 ViRGE和早期的ATI Rage芯片更快。然而，为了达到这种速度，Matrox在视觉质量上做出了重大妥协。Mystique缺少双线性过滤等关键功能（取而代之的是会导致纹理块状化的最近邻插值法），并且透明效果处理不佳（使用点刻法），导致其画面效果被广泛批评为“像素化” 40。

第一波集成2D/3D加速器未能点燃市场，因为它们是妥协的产物。通过试图将3D功能附加到现有的2D架构上，S3和ATI等公司创造出的芯片在两个方面都表现平平。它们的3D性能往往乏善可陈，而且设计选择受到维持向后兼容性和服务现有2D/Windows加速市场的需求的限制。这为一家愿意纯粹专注于3D性能，甚至不惜牺牲所有其他功能的公司创造了关键的市场机会。这些公司是2D加速器市场的主导者，他们的业务建立在向OEM销售2D卡的基础上 35。他们的主要目标是在其功能列表中增加一个“3D”选项，而不扰乱其核心业务。这种对集成和成本节约的关注导致了妥协的3D设计。市场需要的是卓越的3D游戏体验，但现有厂商提供的却是平庸的3D功能作为卓越Windows体验的附加品。市场需求与产品供应之间的这种不匹配，为3dfx的崛起创造了机会。

2.2 Voodoo革命：3dfx、Glide与附加3D卡的兴起

1996年，一家名为3dfx Interactive的新公司凭借其Voodoo Graphics芯片组从根本上颠覆了市场 43。与竞争对手不同，Voodoo是一款纯3D附加卡。它没有任何2D或VGA功能，需要一块现有的2D卡才能工作，通过VGA直通电缆连接 33。

通过完全专注于3D渲染，3dfx能够将所有的芯片预算都投入到对游戏至关重要的功能上。Voodoo Graphics显卡提供的性能和视觉质量（包括竞争对手所缺乏的双线性过滤等功能）远超任何集成的2D/3D芯片 43。对于游戏玩家来说，软件渲染和Voodoo加速图形之间的差异是“惊人的” 47。

3dfx成功的关键组成部分是其专有的图形API——Glide 46。Glide是一个轻量级的、“贴近硬件”的API，专门用于发挥Voodoo硬件的功能 45。这使得开发者能够从硬件中榨取最大性能，与当时更为抽象且通常较慢的微软Direct3D早期版本形成鲜明对比 43。Voodoo硬件和Glide API之间的共生关系创建了一个强大的生态系统，在1996年至1998年间主导了PC游戏领域 46。

Voodoo及其后续产品Voodoo2（1998年）成为PC游戏的事实标准。如果你想玩最新的3D游戏，你就需要一张Voodoo卡 44。3dfx最初将其芯片设计授权给第三方显卡制造商（如Diamond Multimedia及其广受欢迎的Monster 3D卡），这导致了产品的广泛供应和市场竞争 50。

表2：20世纪90年代中期的关键3D加速器

芯片组	公司	年份	类型	主要优势	主要劣势	主要API
S3 ViRGE	S3	1995	2D/3D集成	强大的2D性能，低成本	3D性能极差（“减速器”）	Direct3D, S3D
ATI 3D Rage II	ATI	1996	2D/3D集成	良好的2D性能，可行的替代方案	速度不如专用3D卡	Direct3D
Matrox Mystique	Matrox	1996	2D/3D集成	优秀的2D性能，同类中3D速度较快	3D图像质量差（无双线性过滤）	Direct3D, MSI
3dfx Voodoo Graphics	3dfx	1996	纯3D附加卡	无与伦比的3D性能和质量	需要独立的2D卡，VGA直通	Glide
NVIDIA RIVA 128	NVIDIA	1997	2D/3D集成	整体性能强劲，驱动程序良好	在Glide游戏中不如Voodoo快	Direct3D, OpenGL

3dfx最初的成功不仅仅是硬件上的胜利，更是一个生态系统的胜利。通过创建一个紧密耦合的硬件（Voodoo）和软件（Glide）平台，并为单一目的（游戏）进行优化，他们提供了集成解决方案无法比拟的用户体验。Glide的简洁和高性能激励了开发者支持它，这反过来又推动了硬件的销售，形成了一个良性循环。这表明，在一个新兴市场中，一个专有但卓越且得到良好支持的生态系统，可以暂时胜过一个开放但尚不成熟的标准（Direct3D）。这种模式后来被NVIDIA的CUDA所复制，CUDA通过为GPGPU提供一个紧密集成的硬件/软件解决方案，成功地超越了更为开放但碎片化的OpenCL标准。

2.3 API之战：Glide、OpenGL与Direct3D的标准化之争

20世纪90年代中后期，一场争夺API主导地位的三方大战定义了整个行业。API的选择至关重要，因为它决定了一款游戏能够支持哪些硬件。

Glide：由于其性能和与主导市场的Voodoo硬件的紧密集成，Glide在早期处于领先地位。然而，其专有性是其致命弱点；它只能在3dfx的显卡上运行 46。
OpenGL（开放图形库）：一个源自硅谷图形公司（SGI）及其高端IRIS GL API的开放、跨平台标准 44。它技术上强大而稳健。id Software的约翰·卡马克（John Carmack）决定为《Quake》使用OpenGL，这是一个重要的认可，并促使许多硬件厂商为支持该游戏而创建了“MiniGL”驱动程序 46。然而，在消费市场，早期的完整OpenGL驱动程序支持通常不稳定且充满错误 53。
Direct3D（DirectX的一部分）：微软进军3D API领域的产物。早期版本（直到DirectX 3.0）因其复杂和缓慢而声名狼藉，受到开发者的普遍诟病 52。然而，微软迅速迭代。随着DirectX 5和6的推出，Direct3D成熟为一个可行的、与硬件无关的API，并随每一份Windows操作系统捆绑发布 49。这种普遍性为其带来了巨大优势。随着NVIDIA和ATI等厂商的硬件性能提升，他们的Direct3D驱动程序成为性能竞争的主要战场。

到20世纪90年代末，市场趋势已明显从Glide等专有API转向Direct3D和OpenGL等开放标准 43。功能强大的3D硬件日益多样化，使得为单一供应商的API进行开发变得不可行。微软对操作系统的控制力赋予了Direct3D主场优势，最终在Windows平台上证明了其不可阻挡的地位 46。

API之战表明，在一个成熟、竞争激烈的硬件市场中，开放或事实上的标准最终将战胜专有生态系统。虽然Glide为3dfx带来了强大的早期优势，但随着硬件竞争对手数量的增多，其封闭性成了一个负担。开发者和消费者都更青睐选择和互操作性。微软利用其平台所有权，将Direct3D推为标准，为所有硬件供应商提供了一个统一的API目标，这简化了开发过程，并最终使底层硬件商品化。

2.4 固定功能管线：一个时代的范式

20世纪90年代的所有3D加速器都是围绕**固定功能管线（fixed-function pipeline）**的概念构建的 56。这是一种标准3D渲染流程的硬件实现，由一系列离散的、不可编程的阶段组成。

一个典型的管线包括以下阶段：

几何处理（变换与光照）：CPU获取3D模型的顶点数据，将其转换到屏幕空间，并根据场景中的光源计算光照。
光栅化/三角形设置：硬件接收转换后的2D三角形，并确定它们在屏幕上覆盖了哪些像素。
像素处理（纹理与着色）：硬件接着“填充”这些像素，应用纹理并在三角形表面上插值颜色（例如，高洛德着色） 57。

开发者可以配置这些阶段——例如，启用或禁用光照、设置纹理、选择混合模式——但他们无法改变正在执行的基础算法。其功能被“固定”在芯片中 56。创造的可能性仅限于硬件设计师预见并实现的各种功能组合。

固定功能管线是一个至关重要的抽象，它使第一代3D加速成为可能。它为硬件工程师和游戏开发者提供了一个简单、明确的目标。然而，正是这种简单性成为了其最大的局限。随着开发者对视觉真实感的追求日益增长，他们开始“对抗”固定管线，使用巧妙的多通道渲染技巧来实现硬件未设计支持的效果。开发者日益增长的创作雄心与硬件的僵化之间的这种紧张关系，为下一次伟大的范式转变——可编程性——的到来创造了巨大的压力。

第三章：整合与重塑——GPU的诞生（1999-2002年）

本章标志着图形硬件历史上最关键的转折点。它涵盖了从一个由“3D加速器”组成的碎片化市场，向一个由NVIDIA和ATI主导的整合双头垄断市场的过渡。更重要的是，它详细描述了定义现代GPU的两个基本架构转变：将几何管线（T&L）集成到硬件中，以及从僵化的固定功能管线转向灵活的可编程管线。

3.1 NVIDIA的策略：GeForce 256与硬件变换与光照

1999年末，NVIDIA发布了GeForce 256。当其他显卡只是在光栅化方面变得更快时，NVIDIA通过将3D管线的**变换与光照（T&L）**阶段集成到硬件中，从根本上重新定义了显卡的角色 59。在此之前，T&L是一项由主机CPU处理的计算密集型任务 59。

NVIDIA将GeForce 256作为世界上第一款“图形处理器”（GPU）进行市场推广，将其定义为集成了T&L、三角形设置/裁剪和渲染引擎的单芯片处理器 60。这个营销术语从此深入人心，并定义了该产品类别。通过将几何管线从CPU卸载，GPU可以支持更复杂的场景和更高的多边形数量，因为CPU被解放出来处理人工智能和物理等其他任务 61。

硬件T&L的概念在当时是超前的。发布时，很少有游戏支持它，因为大多数游戏仍然是围绕基于CPU的T&L设计的，并且需要DirectX 7的支持 59。在某些情况下，快速的CPU仍然可以比GeForce 256的专用引擎更快地执行T&L 60。然而，架构上的先例已经确立。

NVIDIA引入“GPU”一词，既是一项卓越的营销策略，也是一个深刻的技术宣言。它不仅仅是一个新名称，更是对显卡角色的一次重塑——从一个简单的“加速器”（CPU的助手）转变为一个独立的“处理器”（与CPU平等的协处理器）。通过接管整个几何管线，NVIDIA宣称图形芯片不再仅仅是一个光栅化器，而是整个3D世界的主宰。这一战略举措提高了竞争对手的进入门槛，并为整个行业未来十年的架构路线图设定了方向。这一举动迫使竞争对手纷纷效仿，ATI的Radeon甚至S3失败的Savage 2000都必须集成T&L引擎 59。一个有竞争力的显卡的定义被NVIDIA永久地改变了。

3.2 双头垄断的形成：3dfx的衰落与ATI/NVIDIA竞争的兴起

世纪之交的时期见证了一场残酷的行业洗牌。曾经不可一世的市场领导者3dfx轰然倒塌，而ATI和NVIDIA则崛起成为两大主导者。

3dfx的一系列战略失误导致了其覆灭。该公司在将2D/3D集成到单张显卡上行动迟缓，在行业向Direct3D/OpenGL标准化过渡时仍固守其专有的Glide API，并做出了一个灾难性的决定：停止授权其芯片，转而收购一家显卡制造商（STB）来生产自己的显卡，这疏远了其前合作伙伴，后者转而投向NVIDIA 43。其产品，如Voodoo3，未能跟上竞争对手的步伐，在支持32位色和硬件T&L方面落后于NVIDIA的RIVA TNT2和GeForce 256 50。最终，面临破产的3dfx的资产和知识产权在2000年底被NVIDIA以约1.12亿美元的价格收购，其中包括宝贵的SLI（扫描线交错）技术专利 69。

随着3dfx的退出，舞台上只剩下ATI和NVIDIA的双雄对决。ATI对GeForce 256的回应是2000年发布的第一代Radeon（后来称为Radeon 7000系列），它配备了强大的硬件T&L引擎，并且在纸面上拥有比NVIDIA的竞争对手GeForce2 GTS更先进的功能集 65。这场对决确立了两者竞争的一个长期模式：NVIDIA的GeForce2拥有更强的原始光栅化性能和更适合当时游戏的架构（四个像素管线，每个管线配有两个纹理单元）；而ATI的Radeon则拥有更具前瞻性的设计（两个管线，每个配有三个纹理单元，更适合未来的多通道渲染），但常常受到不够成熟的驱动程序的拖累 65。多年来，这场战斗的定义就是NVIDIA的原始性能和驱动稳定性与ATI通常更先进的架构设计之间的较量 65。

3dfx的衰落是“创新者的窘境”的典型案例。他们最初凭借专注的纯3D、以Glide为中心的策略取得了成功，但这使他们无法或不愿适应市场的根本性转变：2D/3D的集成、API的标准化以及向32位色和T&L等新功能的迁移。他们继续优化其现有且成功的模式，而像NVIDIA这样的竞争对手则在他们周围重新定义了市场。他们收购STB是一个致命的尝试，意在加倍下注于其现有策略（垂直整合），而市场却要求一种新的策略（技术演进）。3dfx的失败并非因为其技术不好，而是因为他们未能认识到其成功的模式何时已经过时。

3.3 可编程时代的黎明：GeForce 3与可编程顶点着色器

GeForce 256的固定功能T&L管线虽然强大，但仍然僵化。开发者希望对几何和动画有更多的创意控制。2001年，NVIDIA推出了GeForce 3（代号NV20），这是第一款配备**可编程顶点着色器（programmable vertex shader）**的GPU 75。

顶点着色器是游戏开发者编写的一段小程序，它在GPU上为3D模型的每个顶点运行一次 78。与固定的T&L硬件不同，这段程序可以执行自定义的数学运算来操纵顶点的位置、颜色、纹理坐标等 78。这解锁了一系列以前不可能实现的实时效果，例如：

逼真的角色动画（矩阵调色板蒙皮）
程序化变形（飘扬的旗帜、水波纹）
自定义光照模型 75

nFiniteFX引擎是NVIDIA为这一新可编程架构所起的营销名称。GeForce 3是第一款符合微软Direct3D 8.0标准的芯片，该标准正式将可编程顶点和像素着色器的概念引入API 76。虽然顶点管线现在是可编程的，但像素处理阶段仍然主要是固定功能的，尽管它配备了一套更灵活的“寄存器合成器” 77。

可编程顶点着色器的引入不仅仅是一项新功能，它是软件和硬件关系的一次根本性转变。它标志着固定功能时代“更多功能”军备竞赛的终结。硬件设计师不再试图预测并在芯片中实现每一种可能的图形效果，而是提供了一个通用的、可编程的单元，并将创新的任务交给了软件开发者。这为创造力提供了一个“泄压阀”，使得图形技术能够以软件的速度发展，而不是以慢得多的芯片设计周期发展。这种模式被证明非常成功，成为所有未来GPU开发的蓝图。

3.4 像素革命：Radeon 9700与完全可编程性（DirectX 9.0）

虽然GeForce 3使顶点管线变得可编程，但像素管线仍然受到限制。2002年8月，ATI推出了Radeon 9700 Pro（代号R300），这款芯片被广泛认为是史上最重要的GPU之一 84。

Radeon 9700是第一款完全符合Direct3D 9.0标准的GPU。其最重要的特性是其强大而灵活的可编程像素着色器（以及顶点着色器），符合Shader Model 2.0规范 84。像素（或片段）着色器是为每个正在渲染的像素运行的程序，决定其最终颜色 79。Radeon 9700的像素着色器比GeForce 3/4上有限的像素处理能力要强大得多，支持更长的程序和浮点颜色精度，这对于逼真的光照和高动态范围（HDR）渲染等效果至关重要 87。

R300架构是一项杰作。它拥有八个像素管线（是竞争对手的两倍）、一个256位内存总线（也是竞争对手的两倍）以及先进的内存优化技术（HyperZ III） 84。它在性能上实现了对NVIDIA旗舰产品GeForce4 Ti 4600的巨大飞跃，尤其是在启用抗锯齿和各向异性过滤等高级功能时 84。这次发布巩固了ATI作为技术领导者的地位，并开启了与NVIDIA竞争的黄金时代。

可编程着色的强大功能得到了像id Software的约翰·卡马克这样有影响力的开发者的支持。他在《DOOM 3》等游戏引擎上的工作大量使用了可编程着色器来实现逐像素光照和模板阴影体积，将这项技术推向主流，并推动了对像Radeon 9700这样强大硬件的需求 84。

Radeon 9700和DirectX 9不仅仅是增加了一项功能，它们确立了至今仍在使用的基本渲染范式。完全可编程的顶点处理器和完全可编程的像素处理器的结合，创造了一个完整、灵活的图形管线。开发者首次能够控制渲染的两个最重要方面：“三角形去哪里？”（顶点着色器）和“每个像素是什么颜色？”（像素着色器）。所有后续的实时图形技术进步——从复杂的材质系统到延迟渲染和后处理效果——都建立在这个基础的顶点/像素着色器模型之上。Radeon 9700正是使这一范式成为现实的硬件。

第四章：并行处理革命（2006年至今）

本章探讨了GPU身份认同中最重大的转变：它从一个专用的纯图形设备，演变为一个大规模并行、通用的计算引擎。这一转变由一个激进的架构变革——统一着色器模型——和一个革命性的软件平台——NVIDIA的CUDA——共同促成。它们一起为广泛的非图形应用，尤其是人工智能，释放了GPU巨大的计算能力。

表3：GPU架构的代际变迁

时代	主导范式	关键硬件示例	关键软件/API	主要功能
前GPU时代 (1985-1998)	固定功能加速	3dfx Voodoo2 / ATI Rage Pro	Glide / DirectX 3-6	CPU转换后几何体的光栅化
创世纪 (1999-2001)	集成T&L	NVIDIA GeForce 256 / ATI Radeon 7500	DirectX 7	完整的几何与光栅化管线
可编程着色 (2002-2006)	分离式着色管线	NVIDIA GeForce 3 / ATI Radeon 9700	DirectX 8/9	可编程顶点与像素着色
并行计算 (2006-至今)	统一着色器架构	NVIDIA GeForce 8800 / AMD Radeon HD 2900	DirectX 10+ / CUDA / OpenCL	通用并行计算 (GPGPU)

4.1 统一着色器架构：GPU设计的范式转变

从GeForce 3到GeForce 7系列，GPU都是用分离的、专用的处理单元来处理顶点着色器和像素着色器 92。这种设计效率低下。一个具有复杂几何但纹理简单的场景会使强大的像素着色器单元闲置，而一个几何简单但纹理复杂的场景则会使顶点着色器单元得不到充分利用 92。

统一着色器架构（Unified Shader Architecture） 彻底改变了这种设计。它用一个由大量相同的、通用的处理单元（NVIDIA称之为流处理器，AMD称之为流核心）组成的阵列，取代了分离的、专用的着色器单元 92。一个动态调度单元可以将任何类型的着色器工作——顶点、几何或像素——分配给任何可用的处理器 92。这极大地提高了硬件的利用率和效率。

开创性架构

ATI/AMD Xenos（2005年）：首款实现统一着色器架构的GPU是Xenos，由ATI为微软的Xbox 360游戏机设计 92。
NVIDIA Tesla架构（GeForce 8系列，2006年）：NVIDIA的首个统一架构，代号为Tesla，随里程碑式的GeForce 8800 GTX一同亮相 92。G80芯片是一个庞然大物，拥有128个统一流处理器，并带来了巨大的性能飞跃。它是首款支持DirectX 10的GPU，该API在其Shader Model 4.0中正式确立了统一着色器模型 92。
AMD TeraScale架构（Radeon HD 2000系列，2007年）：AMD为PC设计的首个统一架构是TeraScale，随Radeon HD 2000系列一同发布 97。与NVIDIA的标量架构不同，TeraScale采用了VLIW（超长指令字）设计，将多个操作捆绑到一条指令中 101。

统一着色器架构不仅仅是一项效率上的改进，它是促成GPGPU革命的关键且必要的硬件演进。通过创建一个由大量相同的、可编程的浮点处理器组成的池，GPU的架构在无意中与传统矢量超级计算机的架构趋同。“顶点操作”和“像素操作”之间的区别消失了，取而代之的是更通用的“并行计算”概念。正是这种抽象，让开发者开始将GPU视为一个通用的“流处理器”，而不是一个图形设备，为CUDA和OpenCL的出现铺平了道路。

4.2 释放野兽：GPGPU与CUDA生态系统的崛起

随着统一硬件架构的到位，GPGPU的最后一个障碍是软件。早期的GPGPU尝试非常笨拙，迫使程序员将他们的计算伪装成图形操作（例如，将数据存储在纹理中，在像素着色器中运行计算，然后从帧缓冲中读回结果） 104。

NVIDIA的**CUDA（计算统一设备架构，2007年）**平台改变了游戏规则。它提供了一个并行计算平台和编程模型，允许开发者使用类似C的语言（CUDA C/C++）编写在GPU众多核心上并行执行的“内核”函数，而无需了解DirectX或OpenGL等图形API 105。CUDA处理了CPU（主机）和GPU（设备）之间的内存管理、线程调度和执行等复杂任务 106。

NVIDIA投入巨资围绕CUDA建立了一个丰富的生态系统，包括广泛的库（cuBLAS、cuFFT）、调试和分析工具，以及强大的开发者支持 108。这使得科学家、工程师和研究人员能够更容易地将他们的代码移植到GPU上，并实现巨大的速度提升 107。

作为对专有CUDA的跨平台替代方案，**OpenCL（开放计算语言）**于2009年推出。它是一个由苹果公司发起、由Khronos Group管理的开放、免版税标准，得到了AMD、英特尔等公司的支持 112。然而，由于其委员会式的设计流程以及与NVIDIA专注投入相比不够成熟的工具集和库生态系统，OpenCL未能获得与CUDA同等的普及度 111。

现代GPU的底层执行模型是SIMT（单指令多线程）。程序员为单个线程编写代码，硬件将这些线程分组为32或64个线程的“warp”（NVIDIA）或“wavefront”（AMD）。一个warp中的所有线程同时在不同的数据上执行相同的指令（这是SIMD方面），但硬件可以独立管理不同的warp，提供了比纯SIMD模型更大的灵活性 115。

NVIDIA在GPGPU和AI领域的持久主导地位，与其说是一个持续的硬件优势的结果，不如说是CUDA软件生态系统所创造的强大竞争“护城河”的证明。虽然OpenCL提供了一个开放的、跨供应商的替代方案，但CUDA的易用性、成熟的库和广泛的开发者文档创造了巨大的转换成本和网络效应。研究人员和开发者学习CUDA，用CUDA构建代码库，并分享关于CUDA的知识，这使得新项目选择CUDA成为阻力最小的路径，即使竞争对手的硬件在技术上相当甚至更优。

4.3 AI催化剂：GPU如何驱动深度学习热潮

现代人工智能，特别是深度学习的兴起，与GPGPU的成熟密不可分。训练深度神经网络涉及执行大量的矩阵乘法和其他可并行的浮点运算——这是一种GPU的大规模并行SIMT架构完美胜任的工作负载 116。

分水岭时刻出现在2012年。由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton开发的深度卷积神经网络AlexNet，在ImageNet大规模视觉识别挑战赛中以巨大优势获胜 120。这一惊人的成功之所以成为可能，完全是因为他们使用定制的CUDA代码（cuda-convnet）在两块NVIDIA GTX 580 GPU上训练了他们庞大的模型（6000万个参数） 120。如果使用CPU进行训练，计算上是不可行的 121。

AlexNet的成功引发了以GPU为中心的AI研究和开发的爆炸式增长。这为高性能GPU创造了一个新的、巨大的市场，推动了一个良性循环：

AI研究人员需要更强大的GPU。
NVIDIA（以及后来的AMD）投入巨资设计具有针对AI工作负载的特性和性能的GPU。
更强大的GPU使研究人员能够构建更大、更复杂的神经网络。
这导致了AI领域的新突破，从而进一步推动了对GPU的更大需求 122。

GPU作为AI革命引擎的角色几乎完全是偶然的。使其完美适用于AI的架构——大量简单的、并行的浮点核心——并非为AI而设计。它是数十年来由实时图形渲染需求驱动的演进结果。统一着色器架构是为了高效渲染像素和顶点而创建的，但它无意中为训练神经网络创造了理想的硬件。AI热潮实际上是对为视频游戏而构建的技术的一次巨大且改变世界的再利用。

第五章：现代GPU架构与未来轨迹

本章审视了当代GPU技术的格局，重点关注了近期重新引入专用硬件以加速特定计算密集型任务（如光线追踪和AI）的趋势。本章还探讨了旨在克服性能扩展物理极限的制造和内存系统创新，以及强大的GPU技术向移动和片上系统（SoC）领域的扩散。

5.1 对现实主义的追求：硬件加速光线追踪

几十年来，光栅化一直是主流的实时渲染技术。光线追踪是一种通过追踪场景中单个光线路径来模拟光的物理行为的技术，它能产生远为逼真的阴影、反射和全局光照，但对于实时应用来说，其计算成本一直高得令人望而却步 126。

现代GPU开始采用一种混合模型，使用传统的光栅化来处理场景的大部分内容，然后利用专用硬件追踪有限数量的光线来增强阴影和反射等特定效果 128。

随着其Turing架构（GeForce RTX 20系列，2018年）的推出，NVIDIA引入了名为**RT核心（RT Cores）**的专用硬件单元 128。这些是固定功能电路，旨在加速光线追踪中两个计算最昂贵的部分：

包围盒层次结构（BVH）遍历：通过遍历树状数据结构，快速确定光线可能与场景中哪些物体相交 129。
光线-三角形相交测试：执行精确的数学计算，以确定光线是否击中特定的三角形 129。

通过将这项工作从通用的着色器核心中卸载，RT核心使实时光线追踪成为可能 129。AMD在其RDNA 2架构中也引入了类似的硬件加速器 133。

RT核心的引入代表了从通用可编程硬件向专用硬件回归的有趣逆转。经过多年从固定功能单元向统一着色器模型的转变，业界发现，对于某些极其苛刻且定义明确的问题（如BVH遍历），再次构建专用的、不可编程的硬件更为高效。这表明GPU架构的未来不是一条简单的、朝向更强可编程性的线性发展路径，而是一种复杂的混合模型，其中大量的通用计算核心由用于关键瓶颈任务的专用固定功能加速器来增强。

5.2 AI的迫切需求：Tensor核心与专用计算

随着GPU在AI领域的成功，NVIDIA在其Volta架构（2017年）中引入了另一种形式的专用硬件：Tensor核心（Tensor Cores） 119。

Tensor核心是专用的处理单元，旨在显著加速AI的核心计算：大规模矩阵-矩阵乘法和累加（MAC）操作 119。它们在混合精度计算方面尤其有效，能够在低精度数据（如FP16、INT8）上执行乘法，但在更高精度的格式（FP32）中累加结果，以保持准确性。与使用标准CUDA核心相比，这为神经网络的训练和推理提供了巨大的吞吐量提升 119。

Tensor核心的能力催生了图形领域中由AI驱动的新功能，其中最著名的是NVIDIA的深度学习超级采样（DLSS），它使用AI模型将低分辨率渲染的图像实时提升到更高分辨率，从而提高性能 130。

Tensor核心的开发反映了市场的转变，即AI和HPC不再仅仅是GPU的次要应用场景，而是与游戏同等重要的架构设计主要驱动力。这种专业化使得NVIDIA能够创造出专门为利润丰厚的数据中心和AI市场优化的产品，从而构建了一个更深的技术护城河，这是竞争对手仅凭通用硬件难以逾越的。这是从单一通用产品向一个为不同高价值市场提供专业解决方案的平台的转变。

5.3 打破单片设计：小芯片设计与可扩展性的未来

几十年来，高端GPU一直是**单片式（monolithic）**的，即整个处理器是在一块硅片上制造的 136。随着GPU变得越来越复杂，这些单片芯片的尺寸已接近“光罩极限”——当前光刻设备所能制造的最大尺寸 136。更大的芯片还面临着良率指数级下降的问题，使其制造成本极其高昂 136。

为了克服这些限制，AMD等公司正在GPU领域开创一种基于小芯片（chiplet）的设计，这是他们成功用于革新CPU市场的Ryzen处理器的策略 136。

AMD RDNA 3：AMD的Navi 31 GPU（Radeon RX 7900系列）是首款采用小芯片设计的消费级GPU。它包含一个采用先进工艺节点的大型图形计算裸片（GCD），其中包含着色器核心，周围环绕着几个采用较旧、更便宜工艺节点制造的较小内存缓存裸片（MCD）。MCD包含内存控制器和L3缓存 137。
优势：这种方法使得性能最关键的逻辑（着色器）能够使用最新、最昂贵的工艺节点，而不太敏感的组件（内存控制器）则可以使用更成熟、更具成本效益的节点。通过用几个更小、更易制造的小芯片取代一个巨大、难以制造的裸片，它提高了良率并降低了成本 137。

未来的专利和研究指向了更加分解的设计，即GPU由多个计算小芯片组成，将单片的着色器阵列分解为更小的、相互连接的部分 137。主要挑战在于设计高带宽、低延迟的互连技术来连接这些小芯片，并开发能够高效地在它们之间分配工作负载的软件和驱动程序 137。

向小芯片的转变不仅仅是一个工程选择，它是对摩尔定律放缓和尖端半导体制造成本不断攀升的根本回应。单片设计的理想正在被放弃，因为它在物理和经济上已不再可持续。这一转变代表了向一种模块化形式的回归，即复杂系统由更小的、标准化的模块构建而成。这可能会从根本上改变GPU的设计，促成一个未来，即GPU的扩展不再是通过设计一个新的、更大的单片芯片，而是通过增加更多的计算小芯片，类似于CPU通过增加更多核心来扩展。从长远来看，这可能导致更具可定制性和可扩展性的GPU架构。

5.4 内存瓶颈：HBM与统一内存架构的创新

随着GPU计算能力的飞速增长，为数千个核心提供数据已成为主要挑战。GPU与其显存（VRAM）之间的连接通常是最大的性能瓶颈。

高带宽内存（HBM）：为了解决这个问题，业界开发了HBM。HBM不是将内存芯片放置在电路板上GPU的旁边，而是将DRAM裸片垂直堆叠在一起，通过一个非常宽的接口（例如1024位或更宽）和硅中介层连接到GPU 125。与传统的GDDR内存相比，这提供了巨大的内存带宽增长，同时降低了功耗和物理尺寸 139。HBM对于高端数据中心、AI和HPC GPU至关重要，但其高昂的成本使其在很大程度上未能进入消费级游戏市场 139。

苹果的统一内存架构（UMA）：苹果公司在其M系列芯片中采取了不同的方法。他们将高带宽DRAM直接集成到片上系统（SoC）封装中，创建了一个由CPU、GPU和神经引擎共享的单一内存池 143。这种

统一内存架构消除了在独立的CPU RAM和GPU VRAM之间复制数据的需要，而这在传统PC架构中是延迟和效率低下的主要来源 145。这种紧密集成实现了极高的有效带宽和效率，尤其适用于大量使用CPU和GPU的任务。其代价是内存不可由用户升级 144。

HBM和UMA等创新表明，未来性能的提升将同样依赖于数据移动的效率和原始计算能力。内存和处理的物理集成正成为关键的设计原则。HBM的3D堆叠和苹果的UMA都指向一个未来，即“处理器”和“内存”之间的区别变得越来越模糊。性能不再仅仅取决于核心的速度，还取决于通往这些核心的数据路径的延迟和带宽。这种内存和逻辑的紧密耦合是现代高性能SoC设计的决定性特征。

5.5 无处不在的GPU：移动与集成SoC

GPU技术不再局限于PC和工作站的独立显卡。功能强大、定制设计的GPU现在是驱动几乎所有智能手机和平板电脑的片上系统（SoC）的组成部分。

主要参与者

高通Adreno：Adreno GPU系列是高通骁龙SoC的核心部分，为绝大多数安卓设备提供动力 148。Adreno架构源于ATI的移动Imageon技术，并已发展到包括统一着色器和硬件加速光线追踪等现代功能 148。
ARM Mali：ARM设计Mali GPU架构，并将其授权给各种SoC制造商（如三星用于某些Exynos芯片） 150。Mali GPU也采用统一着色器核心架构 150。
苹果M系列GPU：作为其定制SoC的一部分，苹果设计了自己高效且强大的GPU，利用统一内存架构实现了可与某些独立PC GPU相媲美的性能 143。

移动GPU的设计是在性能和能效之间不断寻求平衡。这些GPU必须在移动设备的严格散热和电池寿命限制内，为游戏和高分辨率显示提供丰富的图形体验 37。

移动市场的极端功耗和散热限制，迫使移动GPU设计师在架构效率方面进行创新，这些创新影响了整个行业。为移动SoC开创的旨在节省每一毫瓦的技术——如基于区块的延迟渲染（TBDR）、积极的时钟门控和组件的紧密集成——为设计更高效的高性能GPU提供了宝贵的经验。移动领域不仅仅是一个“低端”市场，它还是能效设计的熔炉，对于数据中心乃至台式PC而言，其重要性日益增加。

结论

图形处理器（GPU）的演变历程是一部关于计算架构不断抽象化和通用化的宏大叙事。其发展轨迹可以清晰地划分为几个关键的范式转变：

首先，是从专用硬件到标准化加速器的转变。早期的图形系统，无论是街机中的定制电路板还是Amiga电脑中的协处理器，都证明了将图形任务从CPU卸载到专用硬件的巨大潜力。然而，正是IBM PC生态系统所倡导的VGA等标准化，才创造了一个足够庞大和同质化的市场，为20世纪90年代3D加速卡的“寒武纪大爆发”奠定了基础。

其次，是从固定功能到可编程的革命。20世纪90年代的3D加速器，如3dfx Voodoo，通过在硬件中实现固定的渲染管线，极大地提升了性能。然而，这一模式的僵化限制了开发者的创造力。NVIDIA GeForce 3引入的可编程顶点着色器和ATI Radeon 9700引入的完全可编程像素着色器，标志着一个根本性的转折。硬件不再是功能的清单，而是一个执行软件指令的平台。这一转变将创新的步伐从缓慢的芯片设计周期解放出来，交到了软件开发者的手中。

再次，是从图形专用到通用并行计算的升华。2006年前后，统一着色器架构的出现是GPU历史上最深刻的变革。通过用一个由大量相同的、可编程的流处理器组成的池取代分离的顶点和像素处理单元，GPU的架构在无意中变得与通用并行计算机惊人地相似。NVIDIA的CUDA平台抓住了这一机遇，提供了一个强大的软件层，将GPU的巨大计算能力从图形的束缚中解放出来，使其能够用于科学计算、数据分析以及后来的AI。

最终，对逼真图形的无尽追求，这一最初由游戏市场驱动的力量，意外地催生了21世纪最重要的计算引擎。AlexNet在2012年的成功，完全依赖于为游戏设计的GPU，戏剧性地证明了这一点，并点燃了现代AI革命。如今，GPU的发展进入了一个新的阶段，其特点是混合架构。在统一着色器核心的通用计算基础上，业界重新引入了专用硬件，如用于光线追踪的RT核心和用于AI的Tensor核心，以解决特定的计算瓶颈。同时，面对摩尔定律的放缓，小芯片（Chiplet）设计和高带宽内存（HBM）等创新正在从物理层面重塑GPU的构建方式，以追求更高的可扩展性和效率。

从一个简单的像素推手，到一个能够模拟物理世界、驱动人工智能的并行计算巨擘，GPU的演变故事深刻地揭示了技术发展的非线性路径：一个为娱乐而生的工具，最终成为了推动科学发现和智能革命的核心动力。未来，GPU无疑将继续在AI、科学模拟和下一代计算的交汇点上扮演着核心角色。