细研GPU架构流程工作原理

最新推荐文章于 2024-07-19 18:39:17 发布

pizi0475

最新推荐文章于 2024-07-19 18:39:17 发布

阅读量1.9k

点赞数

分类专栏： GPU 其它文章计算机系统文章标签：工作 shader 图形编译器 direct3d processing

其它文章同时被 3 个专栏收录

1407 篇文章 2 订阅

订阅专栏

GPU

292 篇文章 14 订阅

订阅专栏

计算机系统

80 篇文章 1 订阅

订阅专栏

第一节：第二代及以后的GPU工作流程简介
　　
　　简单（而不一定绝对科学）的说：GPU主要完成对3D图形的处理--图形的生成渲染。

　　GPU的图形（处理）流水线完成如下的工作：（并不一定是按照如下顺序）顶点处理：这阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图形的形状及位置关系，建立起3D图形的骨架。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Vertex Shader（定点着色器）完成。光栅化计算：显示器实际显示的图像是由像素组成的，我们需要将上面生成的图形上的点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如，一条数学表示的斜线段，最终被转化成阶梯状的连续像素点。纹理帖图：顶点单元生成的多边形只构成了3D物体的轮廓，而纹理映射（texture mapping）工作完成对多变形表面的帖图，通俗的说，就是将多边形的表面贴上相应的图片，从而生成“真实”的图形。TMU（Texture mapping unit）即是用来完成此项工作。像素处理：这阶段（在对每个像素进行光栅化处理期间）GPU完成对像素的计算和处理，从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Pixel Shader（像素着色器）完成最终输出：由ROP（光栅化引擎）最终完成像素的输出，1帧渲染完毕后，被送到显存帧缓冲区。

　　总结：GPU的工作通俗的来说就是完成3D图形的生成，将图形映射到相应的像素点上，对每个像素进行计算确定最终颜色并完成输出。

　　第二节：DirectX8和DirectX9 GPU的传统流水线

　　前面的工作流程其实已经说明了问题。本章来总结一下，承前启后。传统的GPU功能部件我们不妨将其分为顶点单元和像素流水线两部分顶点单元由数个硬件实现的Vertex Shader组成。传统的像素流水线由几组PSU(Pixel Shader Unit)+TMU+ROP组成。于是，传统的GPU由顶点单元生成多边形，并由像素流水线负责像素渲染和输出。对于像素流水线需要做的说明是：虽然传统的流水线被认为=1PSU+1TMU+1ROP，但这个比例不是恒定的，例如在RadeonX1000（不包括X1800）系列中被广为称道的3:1黄金架构，PSU:TMU:ROP的数量为3：1：1。一块典型的X1900显卡具有48个PSU，16个TMU和16个ROP。之所

　　以采用这种设计方法，主要考虑到在当今的游戏中，像素指令数要远远大于纹理指令的数量。ATI凭借这个优秀的架构，成功击败了Geforce7，在DX9后期取得了3D效能上的领先。

　　总结：传统的GPU由顶点单元生成多边形，像素流水线渲染像素并输出，一条像素流水线包含PSU，TMU，和ROP(有的资料中不包含ROP)，比例通常为1:1:1，但不固定。

第三节：顶点和像素操作指令GPU通过执行相应的指令来完成对顶点和像素的操作

　熟悉OpenGL或Direct3D编程的人应该知道，像素通常使用RGB三原色和alpha值共4个通道（属性）来描述。而对于顶点，也通常使用XYZ和W 4个通道（属性）来描述。因而，通常执行一条顶点和像素指令需要完成4次计算，我们这里成这种指令为4D矢量指令（4维）。当然，并不是所有的指令都是4D指令，在实际处理中，还会出现大量的1D标量指令以及2D，3D指令。

　　总结：由于定点和像素通常用4元组表示属性，因而顶点和像素操作通常是4D矢量操作，但也存在标量操作。

第四节：传统GPU指令的执行

　　其实这很好理解，传统的VS和PS中的ALU（算术逻辑单元，通常每个VS或PS中都会有一个ALU，但这不是一定的，例如G70和R5XX有两个）都能够在一个周期内（即同时）完成对矢量4个通道的运算。比如执行一条4D指令，PS或VS中的ALU对指令对应定点和像素的4个属性数据都进行了相应的计算。这便是SIMD的由来。这种ALU我们暂且称它为4D ALU。需要注意的是，4D SIMD架构虽然很适合处理4D指令，但遇到1D指令的时候效率便会降为原来的1/4。此时ALU 3/4的资源都被闲置。为了提高PS VS执行1D 2D 3D指令时的资源利用率，DirectX9时代的GPU通常采用1D+3D或2D+2D ALU。这便是Co-issue技术。这种ALU对4D指令的计算时仍然效能与传统的ALU相同，但当遇到1D 2D 3D指令时效率则会高不少，例如如下指令：

　　ADD R0.xyz , R0,R1

　　//此指令是将R0,R1矢量的x,y,z值相加结果赋值给R0

　　ADD R3.x , R2,R3

　　//此指令是将R2 R3矢量的w值相加结果赋值给R3

　对于传统的4D ALU，显然需要两个周期才能完成，第一个周期ALU利用率75% ，第二个周期利用率25%。而对于1D+3D的ALU，这两条指令可以融合为一条4D指令，因而只需要一个周期便可以完成，ALU利用率100%。但当然，即使采用co-issue，ALU利用率也不可能总达到100%，这涉及到指令并行的相关性等问题，而且，更直观的，上述两条指令显然不能被2D+2D ALU一周期完成，而且同样，两条2D指令也不能被1D+3D ALU一周期完成。传统GPU在对非4D指令的处理显然不是很灵活。

　　总结：传统的GPU中定点和像素处理分别由VS和PS来完成，每个VS PS单元中通常有一个4D ALU，可以在一个周期完成4D矢量操作，但这种ALU对1D 2D 3D操作效率低下，为了弥补，DX9显卡中ALU常被设置为1D+3D 2D+2D等形式。

　　第五节：统一渲染架构

　　相对于DirectX 9来说，最新的DirectX 10最大的改进在于提出了统一渲染架构，即Unified Shader。传统的显卡GPU一直采用分离式架构，顶点处理和像素处理分别由Vertex Shader和Pixel Shader来完成，于是，当GPU核心设计完成时，PS和VS的数量便确定下来了。但是不同的游戏对于两者处理量需求是不同的，这种固定比例的PS VS设计显然不够灵活，为了解决这个问题，DirectX10规范中提出了了统一渲染架构。不论是顶点数据还是像素数据，他们在计算上都有很多共同点，例如通常情况下，他们都是4D矢量，而且在ALU 中的计算都是没有分别的浮点运算。这些为统一渲染的实现提供了可能。在统一渲染架构中，PS单元和VS单元都被通用的US单元所取代，nVidia的实现中称其为streaming processer，即流处理器，这种US单元既可以处理顶点数据，又可以处理像素数据，因而GPU可以根据实际处理需求进行灵活的分配，这样便有效避免了传统分离式架构中VS和PS工作量不均的情况。

　　总结：统一渲染架构使用US（通常为SP）单元取代了传统的固定数目的VS和PS单元，US既可以完成顶点操作，又可以完成像素操作，因而可以根据游戏需要灵活分配，从而提高了资源利用率。

第六节：G80和R600的统一渲染架构实现

　　G80 GPU中安排了16组共128个统一标量着色器，被叫做stream processors，后面我们将其简称为SP。每个SP都包含有一个全功能的1D ALU。该ALU可以在一周期内完成乘加操作（MADD）。也许有人已经注意到了，在前面传统GPU中VS和PS的ALU都是4D的，但在这里，每个SP中的ALU都是1D标量ALU。没错，这就是很多资料中提及的MIMD（多指令多数据）架构，G80走的是彻底的标量化路线，将ALU拆分为了最基本的1D 标量ALU，并实现了128个1D标量SP，于是，传统GPU中一个周期完成的4D矢量操作，在这种标量SP中需4个周期才能完成，或者说，1个4D操作需要4个SP并行处理完成。这种实现的最大好处是灵活，不论是1D,2D,3D,4D指令，G80得便宜其全部将其拆成1D指令来处理。指令其实与矢量运算拆分一样。

　G80的编译器会将其拆分为4个1D标量运算指令并将其分派给4个SP：

　　ADD R0.x , R0,R1

　　ADD R0.y , R0,R1

　　ADD R0.z , R0,R1

　　ADD R0.w, R0,R1

　　综上：G80的架构可以用128X1D来描述。

G80核心结构图

R600的实现方式则与G80有很大的不同，它仍然采用SIMD架构。在R600的核心里，共设计了4组共64个流处理器，但每个处理器中拥有1个5D ALU，其实更加准确地说，应该是5个1D ALU。因为每个流处理器中的ALU可以任意以1+1+1+1+1或1+4或2+3等方式搭配（以往的GPU往往只能是1D+3D或2D+2D）。ATI将这些ALU称作streaming processing unit，因而，ATI宣称R600拥有320个SPU。我们考虑R600的每个流处理器，它每个周期只能执行一条指令，但是流处理器中却拥有5个1D ALU。ATI为了提高ALU利用率，采用了VLIW体系(Very Large Instruction Word)设计。将多个短指令合并成为一组长的指令交给流处理器去执行。例如，R600可以5条1D指令合并为一组5DVLIW指令。

　　对于下述指令：

　　ADD R0.xyz , R0,R1 //3D

　　ADD R4.x , R4,R5 //1D

　　ADD R2.x , R2,R3 //1D

　　R600也可以将其集成为一条VLIW指令在一个周期完成。

　　综上：R600的架构可以用64X5D的方式来描述。

R600的核心结构图

　　总结：G80将操作彻底标量化，内置128个1D标量SP，每个SP中有一个1D ALU，每周期处理一个1D操作，对于4D矢量操作，则将其拆分为4个1D标量操作。R600仍采用SIMD架构，拥有64个SP，每个SP中有5个1D ALU，因而通常声称R600有320个PSU，每个SP只能处理一条指令，ATI采用VLIW体系将短指令集成为长的VLIW指令来提高资源利用率，例如5条1D标量指令可以被集成为一条VLIW指令送入SP中在一个周期完成。

　　第七节：G80与R600效能对比

　　从前一章的讨论可以看出，R600的ALU规模64X5D=320明显比G80的128X1D=128要大，但是为何在实际的测试中，基于R600 Radeon HD X2900XT并没有取得对G80/Geforce8800GTX的性能优势？本章将试图从两者流处理器设计差别上来寻找答案，对于纹理单元，ROP，显存带宽则不做重点讨论。事实上，R600的显存带宽也要大于G80。

　我们将从频率和执行效能两个方面来说明问题：

　　1、频率：G80只拥有128个1D流处理器，在规模上处于绝对劣势，于是nVidia采用了shader频率与核心频率异步的方式来提高性能。Geforce8800GTX虽然核心频率只有575MHZ，但shader频率却高达1375MHZ，即SP工作频率为核心频率的两倍以上，而R600则相对保守地采用了shader和核心同步的方式，在RadeonHD2900XT中，两者均为740MHZ。这样一来，G80的shader频率几乎是R600的两倍，于是就相当于同频率下G80的SP数加倍达到256个，与R600的320个接近了很多。在处理乘加（MADD）指令的时候，740MHZ的R600的理论峰值浮点运算速度为：740MHZ*64*5*2=473.6GFLOPS 而shader频率为1350MHZ的G80的浮点运算速度为：1350MHZ*128*1*2=345.6GFLOPS，两者的差距并不像SP规模差距那么大。

　　2、执行效能：G80虽说shader频率很高，但由于数量差距悬殊，即使异步也无法补回理论运算速率的差距。于是，要寻找答案，还要从两者流处理器的具体设计着手。在G80中，每个矢量操作都会被拆分为1D标量操作来分配给不同的SP来处理，如果不考虑指令并行性等问题，G80在任何时刻，所有SP都是充分利用的。而R600则没这么幸运，因为每个流处理器只能同时处理一条指令，因而R600要将短指令合并为能充分利用SP内5DALU运算资源的VLIW指令，但是这种合并并不是总能成功。目前没有资料表明R600可以将指令拆开重组，也就是说，R600不能每时每刻都找到合适的指令拼接为5D指令来满载他的5D SP，这样的话我们假设处理纯4D指令的情况，不能拆分重组的话，R600每个SP只能处理一条4D指令，利用率80%，而对于G80，将指令拆开成1D操作，无论何时都能100%利用。而且，R600的结构对编译器的要求很高，编译器必须尽可能寻找Shader指令中的并行性，并将其拼接为合适的长指令，而G80则只需简单拆分即可。另外还需要说

　　明的一点是，R600中每个SP的5个1D ALU并不是全功能的，据相关资料，每组5个ALU中，只有一个能执行函数运算，浮点运算和Multipy运算，但不能进行ADD运算，其余的4各职能执行MADD运算。而G80的每个1D ALU是全功能的，这一点也在一定程度上影响了R600的效能。

　　总结：虽然R600的ALU规模远大于G80，但G80的SP运行频率几乎是R600的两倍，而且G80的体系架构采用完全标量化的计算，资源利用率更高，执行效能也更高，因而总体性能优于R600。