GeForce GTX 480 测试报告-CSDN博客

DX11 大战不再是独角戏

自从 AMD 与 2009 年 9 月上市 RADEON HD 5870、RADEON HD 5850 开始，我们正式进入 DirectX 11 世代，到如今市场上已经有上至 RADEON HD 5970 下至 RADEON HD 5450 的完整 DX11 产品可供大家选择，而它们的出品商则是曾经在 DX10 时代处于落后状态的 AMD，。

而相比之下，AMD GPU 的最主要竞争对手 NVIDIA 在这半年中则主要透过 GTC 09、SC09、CES 2010 等会议、大展等机会向外界透露他们的下一代产品 Fermi 的概貌。例如在 GTC 09 上，NVIDIA 先行发布了 Fermi 的计算架构，而在 CES 2010 期间则向大家发布了 Fermi 的图形架构。

这样的发布方式就是所谓的纸面发布，在 CPU 领域这样的发布方式其实是司空见惯的，即先在产品正式发布之前的一段时间先把 CPU 的 ISA、微架构先行发布，而后隔几个月才向市场上推出正式的产品。但是引人注意的是，这样的发布方式在 GPU 历史上还是比较罕见的，曾经有类似发布方式的产品后来大都归为不成功的产品，例如 S3 Savage 2000、NVIDIA NV30，因此 Fermi 的这个发布方式就让一些人联想 Fermi 将是另一个 NV30。

按照 NVIDIA 的说法，这次 Fermi 之所以晚于微软 DirectX 11 的发布，原因有两点：芯片异常复杂以及重新设计的图形架构。

Fermi 有 30 亿晶体管，即使使用了目前 TSMC 最先进的高性能版 40nm 工艺芯片面积要达到了 529 平方毫米。由于要开拓 GPU Computing 市场，Fermi 引入了许多以前的 GPU 从未有过的技术，例如片上存储器 ECC，可读写 L2/L1 cache；为了加强 DirectX 11 的性能表现，引入了多 GPC 设计，这其实就是多核版 GPU 架构，即 GPU 上有多个相对独立的 GPC，能同时并行处理多个三角形，这在之前的 GPU 上是无法实现的（我们会在后面简单介绍一下这个问题）。

如此众多的新特性都被赋予在 Fermi 身上，的确会对研发团队带来许多全新的问题，例如几乎全新的 ISA（指令系统架构）；可读写 cache 的设计难度、成本要远大于只读 cache，在 GPU 上引入可读写 cache 必须恰如其分；GPC 如何才能实现高效的并行运作等；能满足 Fermi 的复杂电力管理系统等等。

Fermi 的图形架构

按照 NVIDIA 的说法 Fermi 是 GPU 架构的代号，而实际的 GPU 代号则是 GF100，即基于 Fermi 架构的最高端图形产品，G 在这里指图形，100 是指产品级别。

GF100 GPU 具备 512 CUDA Core，是上一代 GPU GT200 的两倍以上，拥有针对 8x MSAA 加强设计的 ROP，ROP 数量两倍于 GT200，而纹理过滤单元数量则有所削减。

在画面品质方面，Fermi 引入了新的 CSAA 模式，支持 24 个 coverage 取样，最高支持 32 倍 CSAA，并且加入了 Alpha-to-Coverage 的支持，对 DX10 游戏游戏来说这是不错的好消息。

DirectX 11 中新增了 tessellation 的支持，在启用该功能后，游戏的几何体细节度将会显著增强，随之而来带来的问题是几何处理性能的需求大幅度提高。

利用 tessellation 技术实现逼真、浓密的头发渲染

有鉴于此，NVIDIA 在 GF100 中引入了 GPC 的设计，将 GPU 的处理单元划分为除了 ROP、内存控制器外若干相对独立的完整模块，这其实就是一个多核设计。

每个 GPC 具备一个完整的光栅引擎用来处理三角形的 setup、光栅化和 z-cull 处理，GF100 有 4 个 GPC，和同样规模的旧式架构相比，GF100 的三角形 setup 吞吐率提高了三倍，很好地满足了 DirectX 11 中新增 tessellation 支持带来的几何处理剧增问题。

三角形 setup 是指计算三角形的边缘与屏幕上的哪些像素重叠。

NVIDIA GF 100 架构白皮书原文：Each edge setup unit processes up to one point, line, or triangle per clock（每个边缘 setup 单元可以每个周期完成一个点或线、或三角形的处理）。

GF100 的 GPC 内拥有 4 个 SM，每个 SM 有一个 PolyMorph Engine，每个 PolyMorph Engine 具备专门的硬件用于处理顶点拾取、Tessellation、Viewport Transform、Attribute Setup、Stream Output。

在 G80 到 GT200 的架构中有一个名为 TPC 的概念，每个 TPC 内有若干个 SM 和若干个纹理单元，而到了 GF100，每个 SM 自己本身就有 4 个纹理单元，每个纹理单元可以每个周期完成 4 个纹理样本的拾取。

GF100 GPC 内的固定功能单元（即光栅引擎、PME、纹理单元等）运行频率是 CUDA Core 的一半，而在 GT200 固定功能单元单元的运行频率则和 CUDA Core 没有什么关系设定。

这个设计有利有弊，好处是如果 CUDA Core 的频率设定较高的话，GPC 内的其他单元也能随之收益，在 CUDA Core 为 1.4GHz 的情况下，纹理单元的频率就能达到 700MHz，而在 GT200b 的 GTX 285 上 CUDA Core 是 1.476 GHz，而纹理单元频率只有 648MHz。不利的地方自然就是如果 CUDA Core 的频率设定较低或者固定功能单元的频率拉不上去的话，就会拖累固定功能单元或者 CUDA Core 的性能发挥。

Fermi 架构的一个重要特点就是引入了可读写的 L1 cache 和 L2 cache 设计，这个设计不仅在 GPU Computing 的时候能发挥作用，在执行游戏图形的也能有所作为，例如在图形模式的时候 L1 cache 会被配置为每个 SM 具备 16KB L1 cache 作为寄存器溢出缓存，对于使用大量寄存器的游戏图形应用能发挥一定的作用。

Fermi 的可读写统一 L2 cache 被用来取代以往专门的 L2 纹理 cache、ROP cache 以及各类片上 FIFO 缓存，cache 的利用率更高，并且在整个渲染过程中都能提供减少访问主内存的动作。

Fermi 采用多核结构进行图形计算，渲染方式很可能是准 tiled-based，即分块渲染，这就可能会出现三角形跨界甚至是半透明三角形跨界的问题，此时 L2 cache 作为 tiler buffer 以及 Fermi 内部内部互联总线在这里就有非常重要作用，可以说 L2 cache 是 Fermi 得以实现多核处理实现几何性能剧增的重要基石。

地铁 2033 结合 Pixel Shader/Compute Shader 实现逼真的画面处理

在 NVIDIA 的布局中，Fermi 的重要卖点之一是 GPU Computing，图形计算在很大程度上其实是 GPU Computing 的子集或者存在交集，和游戏相关的 GPU Computing 可以是使用 Compute Shader 跑的各种后处理；物理现象特效加速等等，这些计算都是非常适合于 Fermi 微架构执行。

GeForce GTX 480 实物功耗、散热与超频

第一波发布的 GF100 产品是 GeForce GTX 480 和 GeForce GTX 470，具体规格如下：

GeForce GTX 480 的显示输出是两个 DVI-I 和一个 mini-HDMI，输出接口类型不如 RADEON HD 5870，后者还提供了 Displayport，能提供更强悍的长距离输出能力以及真正的 10-bit 数字输出。

GeForce GTX 480 采用了全新的 PCB 和散热器设计，显卡的长度和以往的 GTX 285 相当。GTX 480 的散热器虽然依然是双槽方式，但是散热鳍片上有一个紧密相连的金属盖，直接裸露于外表而不像以往的高端显卡散热器那样还覆盖着有塑料壳包裹，这对于提高散热有一定的作用。由于鳍片外露，因此大家在运行玩 3D 程序或者运行后马上关机都不要触碰这个金属壳，因为那是非常非常的烫。

GeForce GTX 480 的 TDP 为 250 瓦（需要和 GTX 285 一样的 6-pin+ 8 pin PCIE 外接电源，但是所需的电源瓦数起码要比 GTX 285 高 100 瓦），是目前散热设计功率最高的单芯片显卡。

在运行 Furmark 1.80 1920x1200 8xAA 全屏满载的情况下，我们测试平台的整机有用功率达到 465 瓦，有趣的是 AMD 和 NVIDIA 都认为这个测试程序反映实际游戏中的功耗情况，当然这也是有一定道理，因为在我们测试的数十个程序以多种模式运行，GeForce GTX 480 都从未出现过整机有用功率超过 420 瓦的表现。

GeForce GTX 480 运行 Furmark 1.80
整机有用功率 = 465 瓦
1 分钟后风扇转速= 83%（4000 rpm）
室温 =21 摄氏度裸机运行

RADEON HD 5870 运行 Furmark 1.80
整机有用功率 = 347 瓦
两分钟后风扇转速= 50%（2895 rpm）
室温 =21 摄氏度裸机运行

根据 NVIDIA 的介绍，GeForce GTX 480 温度阀值为 105 摄氏度，一旦超过这个温度，显卡就会自动降频以确保产品的安全。

另一方面 GeForce GTX 480 的电力管理也是目前产品中最强悍的，在桌面模式下的 GPU 频率、内存频率会下降到 50MHz 和 67.5MHz，在完全闲置的情况下整机有用功率会下降到 160 瓦（主板 bios 中我们关闭了 CPU 的节电管理）。

GeForce GTX 480 进入桌面两分钟后温度
浏览上网、一般文书处理基本不影响显卡频率
室温 =21 摄氏度裸机运行

RADEON HD 5870 进入桌面两分钟后温度
室温 =21 摄氏度裸机运行

我们建议大家有条件的话，应该考虑使用液冷更换这些高端游戏卡的散热器，这将大大改善它们在高负荷运行下的散热条件。

3dmark_vantage_1.02_x9382_8997_49778-s.png
GeForce GTX 480 默认频率 3DMark Vantage Extreme 测试结果

oc_815_1630_4400_3dmark_vantage_1.02_x10813_10380_52049-s.png
GeForce GTX 480 超频 815|1630|4400 的 3DMark Vantage Extreme 测试结果

NVIDIA 提供了来自 eVGA 的 EVGA precision 工具作为超频测试之用，出乎意料的是，原本我对这卡的 oc 能力并不抱什么期待，但是从测试结果来看这片 GeForce GTX 480 的频率可以达到 815|1630|4400 的稳定超频，频率提升幅度分别为 16.4% 和 22%。

GeForce GTX 480 超频815|1630|4400 运行 Furmark 1.80
整机有用功率 = 513 瓦
1 分钟后风扇转速= 92%（4400 rpm）
室温 =22 摄氏度裸机运行

超频后的耗电达到 513 瓦，峰值温度方面则上升了大约两度。

Windows 7 x64 性能测试平台

处理器

Core i7 920 Nehalem 架构

内存 X58：3 x 1024MB DDR3-1333 - 共计 3 GB
CAS 7, 7, 7, 20, DDR3-1333 主板 ASUS P6T Deluxe X58+ICH10R 芯片组硬盘 WD 1600 160GB 10KRPM 操作系统 Windows 7 x64
DirectX 2010 feb 显示卡 AMD RADEON HD 5870 1024MB
AMD RADEON HD 5850 1024MB
催化剂 10.3
NVIDIA GeForce GTX285
Forceware 197.17

底层架构测试-DX9/DX10

这个程序其实是 AMD 发布 R600 的时候提供给测试人员使用的，包括了 FP 1D MULADD、FP 4D MULADD、SQRT、定制的 5-issue FP、INT 1D MULADD、INT 4D MULADD 等测试，这个测试的目的是为了测试 shader 单元的指令吞吐率。

从测试结果来看，GTX480 的 shader 单精度 MAD（FMA）指令吞吐率比 GTX 285 快大约 87% ，但是特殊功能指令例如 SQRT 则慢 50%。在整数指令方面，GTX 480 比 GTX 285 快 4.2 倍。

和 5870 相比，GTX 480 的指令吞吐率优势体现在标量指令上，单精度 MAD 指令后者比前者快 1.26 倍，但是在实现 5-way VLIW 指令组合时，则比前者慢 83%。

上面的测试数据是在 MIPMAP Mag/Min 为 Linear、MIPMAP filter 为Linear（这两种 Linear 在一起应用的时候就是大家常说的 Tri-Linear）下录得的成绩，这个测试的目的是为了测试纹理单元方面的性能，程序由 Hotball 编写。

从测试结果来看，GTX 480 的纹理填充率甚至不如 GTX 285，双方的纹理单元数量分别为 60 个和 80 个。

RADEON HD 5870 的纹理单元数量为 80 个，而且频率达到了 850 MHz，这样它的纹理填充率就高出 GTX 480 不少了。

三款产品的纹理拾取能力均为单周期完成一个 4D*8-bit 纹理元素的拾取，而在三年前的 R600 和 G80 上我们看到过它们都具备单周期完成一个 4D*16-bit 纹理元素的能力。

从测试结果来看，GTX 480 的单个 ROP 性能不如上一代的 GTX 285，但是由于数量较多和频率较高，因此整体性能还可以，不过由于我们测试的程序最高分辨率限制在 1024x768，因此在这个测试中我们并不能得知在高分辨率下 GTX 480 的 ROP 效率。

RADEON HD 5870 的 ROP 保持着自 RV770 以来的较高效率，但是 Render to Target 的效率出现一定的滑坡。

接下来我们采用 PowerVR 的 FableMark 1.0 来测试产品的 stencil 操作性能，测试的结果单位为 FPS。

虽然 GTX 285 的 NoAA 帧率较高，但是在启用 MSAA 后，GTX 480 的帧率下降幅度要比 GTX 285 来的小，随着 MSAA 倍率的增加，GTX 480 在这点上的优势越发明显。

和 RADEON HD 5870 相比，GTX 480 在 4XMSAA 上的优势比较突出，特别是 1920x1200，GTX 480 比 RADEON HD 5870 快 60%。在 8xMSAA 上，两者的差别并不算大。

为了测试 D3D10 的 shader 性能，我们采用了来自 iXBT/Digit-Life 支持的 Righmark 项目 Rightmark 3D 2.0.02 专业版进行测试，测试项目包括了 D3D10 中新增的 Geometry Shader 4.0、Pixel Shader 4.0 以及 D3D9 已经引入但是 D3D10 才正式强制要求具备的 Vertex Shader Fetch。

在这个测试中，几何偏重的测试项目一如预料，都是 GTX 480 的囊中之物，而计算密集型的 Pixel Shader 测试项目中，则是 RADEON HD 5870 明显取胜。

底层架构测试-Tessellation

在微软的 DirectX SDK （软件开发包）中有几个例程是采用了不同的 Tessellation 模式，例如 PN Triangle（在 STALKER COP 中采用）以及 Catmull Subdivision（预期在即将发布的 id software 和 Valve 游戏中使用）。

Detail Tessellation：这个例程主要用于展示应用 Displacement Mapping 技术改变几何体表面逼真度。

PN Triangle：

Catmull-Clark Subdivision：

一如预期的那样，GF100 的多核模式在处理复杂几何方面的确有比对手当前产品非常明显的优势，不过这些 demo 的场景很简单，因此才会有比较明显的差别。

在实际的复杂场景中，GF100 的 Tessellation 性能优势会因为实际的情况而有不同的表现。

DirectX 11 技术演示测试- Heaven 2.0

Heaven Benchmark 是 Unigine 公司采用 Unigine 引擎开发的 DirectX 11 基准测试软件，目前最新的版本为 2.0。根据 Unigine 的介绍，相对 1.0 版，Heaven Benchmark 2.0 改变有如下几点：

1、更重的 tessellation 负载。

2、多项重要的引擎优化（包括更有效对进行了 tessellation 处理的几何体进行剔除）。

3、增加了若干场景模型，例如飞船、要塞、空中码头）。

4、基于物理特性的旗帜。

5、更多的动态光照。

6、对部分旧场景的增强。

7、在 normal 基础上增加了 moderate 和 extreme 两种 tessellation 模式。

moderate 模式用于确保在大多数 DX11 硬件（这里应该是指中低端的 DX11 显卡）实现合理的性能。

normal 模式是作为一个优化的品质-性能比率模式，这个模式下，启用硬件 tessellation 可以看到显著画面差别。

Extreme 模式用于展现未来一两年的下一系列 DX11硬件所能推动的 tessellation 极致级别。

从测试结果来看，GeForce GTX 480 的架构优势在这个测试中得到了充分的展示，1920x1200 4AA+16AF Normal 模式下的性能领先水平保持在 40% 左右。

在 2560x1600 8QAA 下，RADEON HD 5870 出现了内存容量不能满足需要的性能爆减现象。

Stone Gaint 是 BitSquid 公司开发的 DX11 技术 demo，采用了 tessellation 技术和 Compute Shader 技术（执行 Diffusion Depth of Field，即漫射式视野景深效果，可以确保焦点物体不被渗透导致模糊，在 Metro 2003 中也有应用）。根据 BitSquid 的声明，这个技术演示程序并不反映 Stone Gaint 游戏的最终画面品质和性能。