走进并行时代之GPU篇(三)

最新推荐文章于 2019-12-30 17:31:15 发布

threepigs

最新推荐文章于 2019-12-30 17:31:15 发布

阅读量1k

点赞数

文章标签： gpgpu cache vector scalability branch x86

本文链接：https://blog.csdn.net/threepigs/article/details/4509564

版权

传统的GPU架构前面两篇都介绍了，这篇主要聊聊Intel即将上市的新款X86的GPU——Larrabee

Fusion是AMD提出的融合GPU和CPU的概念，这也是收购ATI的一个主要目的吧。AMD从08年就开始造势说要出产品了，最后还是一拖再拖，目前的说法是要在2011年的时候推出32nm的Fusion芯片。另一方面Intel也是在打算做融合，原本是今年下半年推出融合了GPU的 Nehalem架构Havendale和Auburndale，结果也是推迟了。把GPU跟CPU拼一块，未必就能提高显卡本身的性能，虽然数据传输的延迟可能减小，但内存的带宽能否跟上也是个问题，Fusion的目标还是在GPGPU，提供一个软硬件的平台，充分利用GPU的的强大浮点能力做通用计算。 Fusion需要解决以下几个难点：一，内存架构。现在的GPU都是独立的显存，这点使得目前的GPGPU编程模型都不够优雅、灵活，就像一堵墙挡在 CPU和GPU之间。这样的编程模型一则是显式的数据传入传出会有比较大的开销，二来使得GPU被隔离，无法使用现有的库，也缺少了一个OS来调度资源。如果统一了内存空间，那么OS就很容易来管理GPU的资源，为GPU创建线程以及线程间通信，如此大大提高了GPU的通用性，只不过内存带宽如果跟不上，便会成为Fusion的性能发挥的瓶颈。二，编程模型。Fusion提供硬件平台的同时，软件平台也得跟上，最好的编程模型当然是自动化的方法，能够抽象 CPU及GPU平台，能够自动的创建GPU线程来负载大量的浮点计算。OpenCL或许承载了AMD的希望，不过从OpenCL公布的Spec来看，谨慎的很怀疑它前景。三，工艺及能耗，现在的显卡的能耗越来越高，风扇做得越来越大，外接电源的功率也越来越高，要把GPU和CPU做进一个芯片，如何解决降低能耗恐怕是个麻烦。另外就是工艺，根据AMD的官方说法是，2011年是32nm的的工艺基本成熟，Fusion会利用32nm的工艺来做Fusion 的设计。

Larrabee的介绍主要参考的是sig08的intel的那篇文章—Larrabee: A Many-Core x86 Architecture for Visual Computing。Larrabee是新型的GPU，指令集是X86的扩展，完全兼容 x86。

Larrabee市场定位是GPGPU，目标是满足计算，内存密集型程序的需求，诸如图像处理，物理模拟，光线跟踪等领域。它更像是多核的CPU，是 x86的扩展指令集，完全兼容x86，从架构上来看，跟Cell更有可比性。概括一下它的做法就是用多线程＋SIMD向量指令来提高浮点操作的吞吐量。 Larrabee利用软件来实现GPU的pipeline，整个芯片里唯一的Fixed Function Unit就是纹理存取单元，这是根据Intel的分析结果来作出的决定，利用软件来实现纹理存取、压缩性能会比硬件实现要差12－40倍。不过它并没有提供测试结果。第一款的Larrabee可能会是16或者32个核，每个Core都是继承自Pentium P54C，在其基础上作了些修改，首先，现在工艺已经可以把当时的0.60µm 做成了现在的45nm。其次Larrabee加入了16-wide的VPU，利用向量指令提高浮动吞吐量。另外，Larrabee加入了4-way SMT，支持4线程，每个线程会有它自己的register set，线程间的切换省去了上下文的切换，只剩从L2 cache加载到L1 Cache的延时，所以Larrabee在处理4个线程有同样的dataset的时候会非常有效，比如绘制三角片到同一个tile之中。Larrabee 从P54C继承的特性有in-order以及非常短的流水级，in-order的x86核比out-of-order要简单的多，可以省了不少晶体管，这样就可以更多的投入在浮点计算单元上，而由于缺少OOO所造成的损失，主要是靠4-way 的多线程间的切换来弥补，指令间遇到stall就靠线程间切换来弥补，而不是靠OOO。因此选择in-order是一种tradeoff。正是由于线程间的切换比较频繁，因此流水级不宜过长，否则每次切换线程都必须清空流水线的话，代价会非常大。这种多个in-order的core组成的GPU到底能带来多大的浮点吞吐量呢。一个2核，4-wide SSE的Core2 Duo的Vector throughput是8 per Clock，而一个10 in-order cores， 16-wide VPU带来的Vector throughput能达到160 per clock，当然这只是浮点能力，并不是综合性能，只是对于GPU来说，最看中的也就是这个峰值FLOPS。

Vector Processing Unit

Larrabee主要就是通过这个16-wide的VPU来得到计算密度的，VPU以及它的寄存器大概占了1/3的芯片面积。选择16也是在增加计算密度跟保持高利用率之间作了tradeoff，16个32bit执行同一条指令的SIMD，只有16路全部填满才能达到峰值，如果这个宽度设得太高，那么必然会影响利用率，在图形处理中，通常是按照一个个正方形的tile来处理，所以同时处理4＊4个像素还是很普遍的操作，因此可以达到一个不错的利用率。Larrabee同时支持Gather/Scatter，16路的操作数可以来自16个不同的地址。Larrabee的VPU还有8个16 bit的Mask Register来控制这16路里的dest那些是可写的，由此可以用来把一些简单的if-else控制结构map到VPU，执行if-else的全部语句，用 Mask Register来控制分支，这个跟G80用的方法是类似的，这样作的好处是减少了branch指令，对于in-order的core来说，还是很有好处的。除了向量单元外，larrabee还保留了标量单元，主要用来指令一些load，store，branch，cache manipulation还有一些简单的整数ALU指令。Larrabee所采用的双发射，是分为两级，主级流水线可以发射任何指令，而次级流水线就主要发射一些标量指令，诸如上面提到的那些由标量单元执行的指令，这样可以简化编译器的静态调度算法，从而提高发射率。

Cache architecture

Larrabee的L1 cache是每个核私有的，32K的ICache和32K的DCache。而L2 cache则是共享的，每个核拥有256KB的local subset，cache一致性由硬件保证，这点是lrb跟cell的一个最大不同，cell的loacal memory是通过DMA指令来完成，而lrb则是靠cache的一致性协议，由核间的ring network来保持一致性，这点是对程序员透明的。关于coherent cache，采用什么样的协议，如此来保证一致性，intel的那篇文章里也没有细说。

Ring network

lrb采用双向的ring network来连接cpu core，16个核构成一个环网，每个核可以在偶数时钟里从一个方向得到数据，奇数时钟从另一个方向得到数据，这样简化了环网的路由算法，相比 crossbar能够提供更大的bandwidth。关于Scalability，如果核的数量超过16以后，lrb会把多个环网来连接起来。

Larrabee支持现有的OpenGL、DirectX，另外还提供了larrabee native api。从看到的资料来看，理论上作为完全兼容x86的Arch是可以运行OS的，不过lrb并没有支持所有PC兼容的特性，一开始的lrb还是作为 stand-alone的GPU，集成进CPU Arch，由QPI跟CPU相连。目前的lrb还只是处于模拟器阶段，一切都只有等芯片出来之后才好作评价。关于lrb新增的向量指令，可以参考如下网址，lrb的一个C＋＋prototype library，用来模拟lrb的新指令集。

http://software.intel.com/en-us/articles/prototype-primitives-guide/

threepigs

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
走进并行时代之GPU篇(三)

传统的GPU架构前面两篇都介绍了，这篇主要聊聊Intel即将上市的新款X86的GPU——Larrabee Fusion是AMD提出的融合GPU和CPU的概念，这也是收购ATI的一个主要目的吧。AMD从08年就开始造势说要出产品了，最后还是一拖再拖，目前的说法是要在2011年的时候推出32nm的Fusion芯片。另一方面Intel也是在打算做融合，原本是今年下半年推出融合了GPU的N
复制链接

扫一扫