NV Fermi游戏架构全解析

204 篇文章 4 订阅
118 篇文章 4 订阅
2009年十一期间,NVIDIA第一次向我们展示了代号Fermi的全新图形架构,不过几乎完全是关于通用计算的,展示了NVIDIA开辟新领域的决心。到了今年初的CES 2010上,NVIDIA终于首次公开拿出了Fermi架构高端型号GF100,展示立体多屏环绕技术3D Vision Surround的同时,内部运行了几个新的演示DEMO。

  今天,NVIDIA终于公开了Fermi GF100在游戏架构方面的诸多特性,这才是普通消费者最为关心的,也是我们要和大家分享的。

  不过我们仍未看到最终零售版的GF100显卡,不少关键的核心参数也暂时缺失,所以如果你急切地想知道下边这些内容,抱歉要失望了。

- 核心面积
- 时钟频率
- 产品型号
- 实际功耗
- 零售价格
- 游戏性能

  Fermi芯片至今仍未开始真正的批量生产,而核心面积在很大程度上决定着良品率,良品率又是时钟频率的前提,功耗和性能又都是建立在频率基础上,它们又都是价格的组成要素。当然了,GF100必须要比RadeonHD 5870速度更快,而且领先幅度要尽量高;功耗和价格也已经不可避免地要更高,只看能控制到什么程度了。

下边是2009年9月1日拍摄的Fermi GF100内核照片:

一、GF100游戏架构的两颗新心脏

  我们已经知道,GF100采用台积电40nm工艺制造,集成大约30亿个晶体管,包含512个流处理器(SP),或者按照NVIDIA官方的说法是CUDA核心。32个这种核心组成一个流式多处理器阵列(SM),然后再四个组成一个图形处理集群(GPC)。GF100就是这样的三层分级架构:4个GPC、16个SM、512个SP。

  此外GF100还有64个纹理寻址单元、256个纹理过滤单元、48个ROP单元,显存位宽384-bit,搭配GDDR5颗粒。核心/Shader/显存频率都没有定夺,显存容量也尚待确定。

  先看一下NVIDIA最新公布的比较详尽的GF100架构图,接下来我们就详细阐述其中的几个重点之处。


NVIDIA Fermi GF100游戏架构全解析

  NVIDIA声称Fermi GF100是一个全新架构并非没有道理。不但是通用计算方面,游戏方面它也发生了翻天覆地的变化,几乎每一个原有模块都进行了重组:有的砍掉了,有的转移了,有的增强了,还有新增的光栅引擎(Raster Engine)和多形体引擎(PolyMorph Engine)。

  光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。

  多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。GF100中有16个多形体引擎,每组SM一个,亦即每组GPC四个。

  多形体引擎绝非几何单元改头换面、增强15倍而已,它融合了之前的固定功能硬件单元,使之成为一个有机整体。虽然每一个多形体引擎都是简单的顺序设计,但16个作为一体就能像CPU那样进行乱序执行(OoO)了,也就是趋向于并行处理。NVIDIA还特地为这些多形体引擎设置了一个专用通信通道,让它们在任务处理中维持整体性。

  当然,这种变化复杂得要命,也消耗了NVIDIA工程师无数的精力、资源和时间。事实上可以这么说,多形体引擎正是GF100核心最大的变化所在,也是它无法在去年及时发布的最大原因。NVIDIA产品营销副总裁UjeshDesai说过这么一句话:设计这么大的GPU实在是太TMD难了。其实,他指的并不是30亿个晶体管。

  这么做也是不得已而为之。考虑到细分曲面单元的几何复杂性,固定功能流水线已经不适用,整个流水线都需要重新平衡。通过多形体引擎的并行设计,几何硬件不再受任何固定单元流水线的局限,可以根据芯片尺寸弹性伸缩。和之前的GT200/G92以及AMD相比,GF100走上了另一条路,而且颇有要做CPU的架势。

  在每一组SM阵列里,纹理单元、一二级缓存、ROP单元和各个单元的频率也都完全不同于以往。每组SM里四个纹理单元,合伙使用12KB一级纹理缓存,并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样,并支持DX11新的压缩纹理格式。

  ROP单元总共48个,分为六组,分别搭配一个64-bit显存通道。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。

  除了ROP单元和二级缓存,几乎其他所有单元的频率都和Shader频率(NVIDIA暂称之为GPC频率)关联在一起:一级缓存和Sahder单元本身是全速,纹理单元、光栅引擎、多形体引擎则都是一半。对于GF100来说,想超频的话很多地方都要重新来过了。


二、NVIDIA为何如此关注几何性能?

  在微软DX11规范的严格限制下,留给NVIDIA(还有AMD)自由发挥的空间并不大:不遵从当然不行,完全照搬就缺乏特色,自行其事又可能只是无用功。最终,NVIDIA选择了在速度上做文章。

  从NV30 GeForce FX 5800到GT200 GeForce GTX 280,NVIDIA显卡的几何性能只提高了不到3倍,而Shader性能提升了150多倍,但仅仅是从GT200到GF100,几何性能的增长倍数就达到了8x。

  有了如此强大的几何性能,NVIDIA就可以使用细分曲面和置换贴图创建更复杂的人物、物体和场景,并保持和对手同样水平的性能,所以才有了16个多形体引擎和4个光栅引擎。

  细分曲面是AMD DX11产品的宣传重点,但NVIDIA要做得复杂得多,而且理论上说效果更出色。接下来NVIDIA要做的就是让游戏开发商充分挖掘GF100架构的潜力,在保证性能的基础上做出更精致的游戏画面。

 


细分曲面渲染过程示意图


NVIDIA水面细分曲面DEMO


NVIDIA头发细分曲面DEMO


三、更好的画质:

1、抖动采样(Jittered Sampling)

  DX11详细定义了显卡需要提供的特性,但对渲染后端的工作涉及甚少,所以NVIDIA做了多形体引擎,还有抖动采样。

  抖动采样不是新技术,长期用于阴影贴图和各种后期处理,通过对临近纹素(Texel/纹理上的像素点)进行采样来创建更柔和的阴影边缘。它的缺点也是非常消耗资源。

  DX9/10上抖动采样是分别拾取每一个纹素,DX10.1开始改用Gather4指令,NVIDIA则在硬件上使用单独一条矢量指令。NVIDIA自己的测试显示,这么做的性能大约是非矢量执行的两倍。

  对游戏开发商来说,这意味着消耗的硬件资源更少;对游戏玩家来说,则意味着更好的画质。

2、抗锯齿加速

  和AMD一样,NVIDIA也对ROP单元做出了调整,以减少在MSAA(多重采样抗锯齿)下的性能损失,还有更多ROP单元来改善性能。

  根据NVIDIA提供的数据,在《鹰击长空》里,8x/4x MSAA模式下GF100的性能分别是GeForce GTX 285的2.33倍和1.61倍。


3、CSAA改进

  CSAA全称Coverage Sample Anti-Aliasing,意思是覆盖采样抗锯齿。

  CSAA是在G80 GeForce 8800 GTX上引入的,当时最高支持16x,如今不但提高到了32x,而且将色彩取样和覆盖取样分离开来,在32x CSAA中分别有8个和24个,无论性能还是画质都有明显提升。NVIDIA宣称,GF100 CSAA从8x到32x的平均性能损失只有区区7%。

  在GF100上,Alpha to Coverage可以使用全部采样点(最多32个),而且有33个透明级别,透明多重采样抗锯齿(TMAA)的质量也因此得到了改进。

限于篇幅,具体的技术细节这里就不赘述了,只看看NVIDIA提供的一些对比效果图:


四、游戏计算(Compute for Gaming)

  随着通用计算的盛行,专业领域和民用领域都前途无量,NVIDIA CUDA并行计算架构就会在GF100中继续发扬光大,而且用途更加广泛,单就游戏而言也是多方面的。

  首先,CUDA架构的实现途径就多种多样,CUDA C、CUDA C++、OpenCL、DirectCompute、PhysX、OptiX Ray-Tracing等等不一而足。这其中既有NVIDIA自己似有的开发方式,也有开放的业界标准规范,开发商可以自由选择。

  在游戏中,NVIDIA CUDA计算架构可以执行画质处理、模拟、混合渲染等等,实现景深、模糊、物理、动画、人工智能、顺序无关透明(OIT)、柔和阴影贴图、光线追踪、立体像素渲染等大量画面效果。

下边试举几例:


《Metro 2033》里的景深效果


《Dark Void》里的PhysX物理效果


光线追踪演示DEMO

  NVIDIA还宣称,GF100的游戏计算性能相比GT200有了大幅提高,比如PhysX流体DEMO演示程序3.0倍、《Dark Void》游戏物理2.1倍、光线追踪3.5倍、人工智能3.4倍。


五、立体多屏环绕技术3D Vision Surround

  NVIDIA在CES上就展示了这种技术,我们也做过详细介绍。它不是GF100的专利,在GT200上也可以实现,只不过是现在才提出来,可以看作是对AMD ATI Eyefinity技术的回应。

  ATI Eyefinity可以支持六屏输出,而3D Vision Surround最多只能达到三屏,但它支持3D立体效果,是3D Vision技术的扩展增强版。AMD方面也在积极开发3D立体技术,但目前还没有与ATI Eyefinity相结合的消息,所以这方面NVIDIA暂时拥有独特的优势。

  遗憾的是,AMD Radeon HD 5000系列能单卡支持六屏输出,NVIDIA GF100却仍然只能同时驱动两台显示器,三台或者更多的话就需要两块GF100组建SLI系统。这样一来,双卡系统的性能当然会好很多,但成本也急剧增加。

  但也正因为不是GF100架构的全新技术,GT200 GeForce GTX 200系列同样可以支持3D Vision Surround。事实上,NVIDIA在CES上展示的系统使用的就是两块GeForce GTX 285。

  显示设备支持方面,3D立体系统需要三台同样支持3D Vision技术的液晶显示器投影仪或者DLP,单个分辨率最高1920×1080;如果是非立体系统(此时叫作NVIDIA Surround),任何普通显示设备均可,单个分辨率最高2560×1600。

  顺便说,它也支持边框纠正管理。

  接下来的问题就是:这种系统的性能如何?程序和游戏兼容性又怎样?


六、结语

总结一下Fermi GF100在游戏架构方面的四大灵魂之处:

1、强劲的几何性能,最高八倍于GT200。

2、非凡的画质,最高32x CSAA和最快三倍的阴影贴图。

3、革命性的GPU游戏计算,物理、人工智能和光线追踪性能提速最多四倍。

4、有史以来最高性能的GPU,在8xAA高分辨率下性能最高是GT200的两倍。

  最后我们简单看看NVIDIA的一个重点演示DEMO:“Supersonic Sled”。它基于二十世纪五十年的美国空军试验模拟而来,在一辆轨道滑车上捆绑了一个火箭,沿铁轨高速飞驰。

  这里用到了细分曲面、DirectCompute、PhysX等多项技术,还支持3D Vision Surround,效果非常华丽,充分展示了GF100强大的游戏计算能力。

  在拿到GF100显卡实物之前,关于Fermi架构我们能说的基本上也就这些了。从NVIDIA公布的这些资料看,GF100毫无疑问在专业和民用两个领域都会成为新的怪物级产品,彪悍的GPGPU通用计算和游戏几何性能令人激动。

  不过GF100到底会有多快?功耗和发热量能否让人接受?价格又是几何?这些更实际的问题仍然没有答案,也还要再等至少两个月才会真正揭晓。到时候AMD已经在DX11世界里寂寞了长达半年之久,NVIDIA又能否力挽狂澜、绝境重生呢?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
TABLE OF CONTENTS Introduction to the NVIDIA Turing Architecture ....................................................................1 NVIDIA Turing Key Features.......................................................................................................... 3 New Streaming Multiprocessor (SM) ....................................................................................... 3 Turing Tensor Cores................................................................................................................. 4 Real-Time Ray Tracing Acceleration ......................................................................................... 4 New Shading Advancements.................................................................................................... 4 Mesh Shading...................................................................................................................... 4 Variable Rate Shading (VRS)................................................................................................ 5 Texture-Space Shading........................................................................................................ 5 Multi-View Rendering (MVR)............................................................................................... 5 Deep Learning Features for Graphics....................................................................................... 5 Deep Learning Features for Inference...................................................................................... 6 GDDR6 High-Performance Memory Subsystem....................................................................... 6 Second-Generation NVIDIA NVLink .......................................................................................... 6 USB-C and VirtualLink............................................................................................................... 6 Turing GPU Architecture In-Depth ........................................................................................7 Turing TU102 GPU........................................................................................................................ 7 Turing Streaming Multiprocessor (SM) Architecture.................................................................. 11 Turing Tensor Cores............................................................................................................... 15 Turing Optimized for Datacenter Applications........................................................................... 16 Turing Memory Architecture and Display Features.................................................................... 20 GDDR6 Memory Subsystem................................................................................................... 20 L2 Cache and ROPs................................................................................................................. 21 Turing Memory Compression................................................................................................. 22 Video and Display Engine ....................................................................................................... 22 USB-C and VirtualLink................................................................................................................. 24 NVLink Improves SLI ................................................................................................................... 24 Turing Ray Tracing Technology............................................................................................26 Turing RT Cores .......................................................................................................................... 31 NVIDIA NGX Technology .....................................................................................................34 NGX Software Architecture ........................................................................................................ 34 Deep Learning Super-Sampling (DLSS) ....................................................................................... 35 InPainting ................................................................................................................................... 38 AI Slow-Mo............................................................................................................................. 39 AI Super Rez........................................................................................................................... 39 NVIDIA Turing GPU Architecture WP-09183-001_v01 | iii Turing Advanced Shading Technologies ..............................................................................40 Mesh Shading............................................................................................................................. 40 Variable Rate Shading................................................................................................................. 43 Content Adaptive Shading...................................................................................................... 45 Motion Adaptive Shading....................................................................................................... 46 Foveated Rendering ............................................................................................................... 47 Texture Space Shading ............................................................................................................... 48 The Mechanics of TSS............................................................................................................. 49 Multi-View Rendering................................................................................................................. 51 Multi-View Rendering Use Cases............................................................................................ 52 Resource Management and Binding Model ............................................................................... 54 Turing Features Enhance Virtual Reality ..............................................................................55 Conclusion ..........................................................................................................................57 Appendix A Turing TU104 GPU ............................................................................................58 Appendix B Turing TU106 GPU ...........................................................................................63 Appendix C RTX-OPS Description ........................................................................................66 The Hybrid Rendering Model ..................................................................................................... 66 RTX-OPS Workload-based Metric Explained............................................................................... 67 Appendix D Ray Tracing Overview .......................................................................................69 Basic Ray Tracing Mechanics...................................................................................................... 70 Bounding Volume Hierarchy .................................................................................................. 71 Denoising Filtering...................................................................................................................... 73 NVIDIA Turing GPU Architecture WP-09183-001_v01 | iv LIST OF FIGURES Figure 1. Turing Reinvents Graphics............................................................................................ 2 Figure 2. Turing TU102 Full GPU with 72 SM Units ..................................................................... 8 Figure 3. NVIDIA Turing TU102 GPU.......................................................................................... 10 Figure 4. Turing TU102/TU104/TU106 Streaming Multiprocessor (SM).................................... 12 Figure 5. Concurrent Execution of Floating Point and Integer Instructions in the Turing SM.... 13 Figure 6. New Shared Memory Architecture............................................................................. 14 Figure 7. Turing Shading Performance Speedup versus Pascal on Many Different Workloads. 14 Figure 8. New Turing Tensor Cores Provide Multi-Precision for AI Inference............................ 16 Figure 9. Tesla T4 delivers up to 40X Higher Inference Performance........................................ 17 Figure 10. Tesla T4 Delivers More than 50X the Energy Efficiency of CPU-based Inferencing .... 18 Figure 11. Turing GDDR6 ............................................................................................................. 21 Figure 12. 50% Higher Effective Bandwidth ................................................................................ 22 Figure 13. Video Feature Enhancements..................................................................................... 23 Figure 14. NVLink Enables New SLI Display Topologies............................................................... 25 Figure 15. SOL MAN from NVIDIA SOL Ray Tracing Demo (See Demo) ....................................... 27 Figure 16. Hybrid Rendering Pipeline .......................................................................................... 28 Figure 17. Details of Ray Tracing and Rasterization Pipeline Stages............................................ 29 Figure 18. From Reflections Demo .............................................................................................. 30 Figure 19. Ray Tracing Pre Turing ................................................................................................ 32 Figure 20. Turing Ray Tracing with RT Cores................................................................................ 32 Figure 21. Turing Ray Tracing Performance................................................................................. 33 Figure 22. Turing with 4K DLSS is Twice the Performance of Pascal with 4K TAA....................... 35 Figure 23. DLSS 2X versus 64xSS image almost Indistinguishable................................................ 36 Figure 24. DLSS 2X Provides Significantly Better Temporal Stability and Image Clarity Than TAA ......................................................................................................... 37 Figure 25. NGX InPainting Examples, Missing Image Data Is Intelligently Replaced with Meaningful Image Information................................................................................... 38 Figure 26. AI Super Rez Provides Improved Image Clarity Over Other Filtering Methods.......... 39 Figure 27. Mesh Shading, Visually Rich Images ........................................................................... 40 Figure 28. Current Graphics Pipeline versus a Graphics Pipeline with Task and Mesh Shaders.. 41 Figure 29. Screenshot from the Asteroid Field Demo.................................................................. 42 Figure 30. An Asteroid at Low and High Levels of Detail (LOD) ................................................... 42 Figure 31. Dynamically Computed, Spherical Cutaway of a Koenigsegg Model, Viewed in NVIDIA Holodeck™..................................................................................... 43 Figure 32. Turing VRS Supported Shading Rates and Example Application to a Game Frame..... 44 Figure 33. Example of Content Adaptive Shading........................................................................ 46 NVIDIA Turing GPU Architecture WP-09183-001_v01 | v Figure 34. Perceived Blur Due to Object Motion Combined with Retinal and Display Persistence ..................................................................................................... 47 Figure 35. Traditional Rasterization and Shading Process........................................................... 49 Figure 36. Texture Space Shading Process................................................................................... 50 Figure 37. Texture Space Shading for Stereo............................................................................... 51 Figure 38. 200° FOV HMD Where Two Canted Panels are Used and Benefit from MVR............. 53 Figure 39Figure 37 MVR Single Pass Cascaded Shadow Map Rendering .................................... 54 Figure 40. Turing Features for VR................................................................................................ 56 Figure 41. Turing TU104 Full Chip Diagram ................................................................................. 59 Figure 42. Turing TU106 Full Chip Diagram ................................................................................. 64 Figure 43. Workload Distribution Over One Turing Frame Time ................................................. 66 Figure 44. Peak Operations of Each Type Base for GTX 2080 Ti .................................................. 68 Figure 45. Basic Ray Tracing Process ........................................................................................... 70 Figure 46. Abstraction of Tree Traversal and a Ray Intersecting Different Levels of Bounding Boxes.......................................................................................................... 72 Figure 47. Shadow Map Percentage Closer Filtering (PCF) versus Ray Tracing with Denoising... 74 Figure 48. Shadow Mapping Compared to Ray Traced Shadows that use 1 Sample Per Pixel and Denoising............................................................................................... 74 Figure 49. Screen-Space Ambient Occlusion Compared to Ray-Traced Ambient Occlusion........ 75 Figure 50. RTX Ray Tracing........................................................................................................... 76 Figure 51. Scene from Battlefield V with RTX On and Off............................................................ 77 Figure 52. Scene #2 from Battlefield V with RTX On and Off....................................................... 78 Figure 53. Shadow of the Tomb Raider with RTX ON .................................................................. 79 NVIDIA Turing GPU Architecture WP-09183-001_v01 | vi LIST OF TABLES Table 1. Comparison of NVIDIA Pascal GP102 and Turing TU102 .................................... 8 Table 2. Enhanced Video Engine, Tesla P4 versus Tesla T4............................................ 19 Table 3. DisplayPort Support in Turing GPUs .................................................................. 23 Table 4. Comparison of NVIDIA Pascal GP104 and Turing TU104 GPUs........................ 60 Table 5. Comparison of the Pascal Tesla P4 and the Turing Tesla T4 ........................... 61 Table 6. Comparison of NVIDIA Pascal GP104 to Turing TU106 GPUs........................... 64

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值