Fermi核心讲解

最新推荐文章于 2024-04-28 12:21:08 发布

evel

最新推荐文章于 2024-04-28 12:21:08 发布

阅读量1k

点赞数

分类专栏： CUDA学习文章标签： processing gpgpu cuda shader stream output

本文链接：https://blog.csdn.net/evel/article/details/5648233

版权

CUDA学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

引用http://www.mobile01.com/topicdetail.php?f=298&t=1409748&p=6

第一張圖片為GF100的完整架構..可以清楚的看到512個CUDA核心（實際上就是流處理器SP），而512個核心分為16組 SM（Streaming Muitiprocessor），其中每4組SM加上.一組raster engine.稱為一組GPC陣列（Graphic processing cluster）而GPC陣列算是Fermi的繪圖處理架構..完整的GF100是由4個GPC陣列合併而成,共享768K 的L2 cache..由這張架構圖不難推論日後的低階版本..可能會是2GPCs及1GPC的GF100閹割板

第二張圖片為SM架構組成..由32個SP合併成一組SIMD運算核心每組SM中還用16個Load/Store單元用以存儲Cache或者顯存（DRAM）中尋址數據。最右邊有四個SFU（special function unit-特殊函數單元），可以執行正弦/餘弦等數學或者插值運算。在幾何效能加強方面NV也在每組SM中加入了硬體功能管線稱之為PolyMorph Engine.基本上GF100的做法是在每組SM中準備對vetex processing有幫助的相關指令，舉凡Vertex Fetch, Tessellator, Viewport Transform, Attribute Setup和 Stream Output等部分

從上面架構圖來看圖說故事..由於NV是基於每組SM下對應一組PolyMorph Engine.所以未來閹割版的geometry性能的確是有可能會隨著刪減SM而降低..也就是說高低階晶片效能也跟著不同..這點與ATI目前的作法比較起來ATI的tessellation速度應該高中低都差不多，但是NVIDIA就有可能高階比低階快，並且某些應用下單一的 tessellation引擎會有瓶頸。

2.GT210,220,240只不過是由原本支援DX10進而能支援DX10.1..事實上變動部份不多..修改難度不高
但DX10和DX11有著完全不同的Shader架構...事實上無論是修改g92或g200的工程..都不如直接layout新硬體架構來的輕鬆..如果真的dx10的產品能夠稍做修改後就能支援全新的dx11..那nv也不用那麼辛苦一路從去年10月唉打到現在都還拿不出dx11的產品

3.NV畢竟目前主要業務還是在顯示晶片..在G200尚未上市前,NV賴以維生的只有顯示晶片業務..我不認為NV有能力能夠在現行顯示晶片的業務外另闢爐灶..因為一旦失敗.就如同走入歷史.NV沒有能力承擔這樣的風險,所以最安全的作法自然是基於現行業務中去開發新應用,策略一旦成功再另闢新市場. 若是市場反應不如預期..也沒關係.因為
也可以當成顯卡來賣.進可攻退可守..這就是為何NV會將兩項不同的商品,卻設計成同樣架構的考量..另外..不可否認的GPGPU也間接的推波助瀾

很多看似不解的設計或策略..如果能夠從廠商本身的角度去思考..其實不難發現..其背後所隱含的意義