显卡技术详解-CSDN博客

专贴显卡参数。避免被忽悠。性价比是王道，适合自己的才是最好的。

软解码显卡和硬解码显卡

俗的来说,软解码是通过软件来解码,其主要处理工作是交给CPU来完成的,而硬解码是将解码工作交给显卡的核心来完成的,相当于减轻了CPU的工作,同时,最主要的是显卡是带有专门的多媒体指令集,而CPU则不同

什么是OpenGL

OpenGL是个专业的3D程序接口，是一个功能强大，调用方便的底层3D图形库。OpenGL的前身是SGI 公司为其图形工作站开发的IRIS GL。IRIS GL是一个工业标准的3D图形软件接口，功能虽然强大但是移植性不好，于是SGI公司便在IRIS GL的基础上开发了OpenGL。OpenGL的英文全称是“Open Graphics Library”，顾名思义，OpenGL便是“开放的图形程序接口”。虽然DirectX在家用市场全面领先，但在专业高端绘图领域，OpenGL是不能被取代的主角。

OpenGL是个与.硬件无关的软件接口，可以在不同的平台如Windows 95、Windows NT、Unix、Linux、MacOS、OS／2之间进行移植。因此，支持OpenGL的软件具有很好的移植性，可以获得非常广泛的应用。由于 OpenGL是3D图形的底层图形库，没有提供几何实体图元，不能直接用以描述场景。但是，通过一些转换程序，可以很方便地将AutoCAD、3DS等 3D图形设计软件制作的DFX和3DS模型文件转换成OpenGL的顶点数组。

在OpenGL的基础上还有Open Inventor、Cosmo3D、Optimizer等多种高级图形库，适应不同应用。其中，Open Inventor应用最为广泛。该软件是基于OpenGL面向对象的工具包，提供创建交互式3D图形应用程序的对象和方法，提供了预定义的对象和用于交互的事件处理模块，创建和编辑3D场景的高级应用程序单元，有打印对象和用其它图形格式交换数据的能力。

OpenGL的发展一直处于一种较为迟缓的态势，每次版本的提高新增的技术很少，大多只是对其中部分做出修改和完善。1992年7月，SGI公司发布了 OpenGL的1.0版本，随后又与微软公司共同开发了Windows NT版本的OpenGL，从而使一些原来必须在高档图形工作站上运行的大型3D图形处理软件也可以在微机上运用。1995年OpenGL的1.1版本面市，该版本比1.0的性能有许多提高，并加入了一些新的功能。其中包括改进打印机支持，在增强元文件中包含OpenGL的调用，顶点数组的新特性，提高顶点位置、法线、颜色、色彩指数、纹理坐标、多边形边缘标识的传输速度，引入了新的纹理特性等等。OpenGL 1.5又新增了“OpenGL Shading Language”，该语言是“OpenGL 2.0”的底核，用于着色对象、顶点着色以及片断着色技术的扩展功能。

OpenGL 2.0标准的主要制订者并非原来的SGI，而是逐渐在ARB中占据主动地位的3Dlabs。2.0版本首先要做的是与旧版本之间的完整兼容性，同时在顶点与像素及内存管理上与DirectX共同合作以维持均势。OpenGL 2.0将由OpenGL 1.3的现有功能加上与之完全兼容的新功能所组成(如图一)。借此可以对在ARB停滞不前时代各家推出的各种纠缠不清的扩展指令集做一次彻底的精简。此外，硬件可编程能力的实现也提供了一个更好的方法以整合现有的扩展指令。

目前，随着DirectX的不断发展和完善，OpenGL的优势逐渐丧失，至今虽然已有3Dlabs提倡开发的2.0版本面世，在其中加入了很多类似于DirectX中可编程单元的设计，但厂商的用户的认知程度并不高，未来的OpenGL发展前景迷茫。

显卡－像素渲染管线

又叫做流水线，管线越多画面就渲染得更真实

是显示芯片内部处理图形信号相互独立的的并行处理单元。在某种程度上可以把渲染管线比喻为工厂里面常见的各种生产流水线，工厂里的生产流水线是为了提高产品的生产能力和效率，而渲染管线则是提高显卡的工作能力和效率。

表示方法：像素渲染流水线的数量×每管线的纹理单元数量

GeForce 6800Ultra的渲染管线是16×1，就表示其具有16条像素渲染流水线，每管线具有1个纹理单元；

GeForce4 MX440的渲染管线是2×2，就表示其具有2条像素渲染流水线，每管线具有2 个纹理单元等等等等。

渲染管线的数量是决定显示芯片性能和档次的最重要的参数之一，在相同的显卡核心频率下，更多的渲染管线也就意味着更大的像素填充率和纹理填充率，从显卡的渲染管线数量上可以大致判断出显卡的性能高低档次。但显卡性能并不仅仅只是取决于渲染管线的数量，同时还取决于显示核心架构、渲染管线的的执行效率、顶点着色单元的数量以及显卡的核心频率和显存频率等等方面。一般来说在相同的显示核心架构下，渲染管线越多也就意味着性能越高，例如16×1架构的GeForce 6800GT其性能要强于12×1架构的GeForce 6800，就象工厂里的采用相同技术的2条生产流水线的生产能力和效率要强于1条生产流水线那样；而在不同的显示核心架构下，渲染管线的数量多就并不意味着性能更好，例如4×2架构的 GeForce2 GTS其性能就不如2×2架构的GeForce4 MX440，就象工厂里的采用了先进技术的1条流水线的生产能力和效率反而还要强于只采用了老技术的2条生产流水线那样。

顶点着色单元

顶点着色单元是显示芯片内部用来处理顶点(Vertex)信息并完成着色工作的并行处理单元。顶点着色单元决定了显卡的三角形处理和生成能力，所以也是衡量显示芯片性能特别是3D性能的重要参数。

顶点(Vertex)是图形学中的最基本元素，在三维空间中，每个顶点都拥有自己的坐标和颜色值等参数，三个顶点可以构成成一个三角形，而显卡所最终生成的立体画面则是由数量繁多的三角形构成的，而三角形数量的多少就决定了画面质量的高低，画面越真实越精美，就越需要数量更多的三角形来构成。顶点着色单元就是处理着些信息然后再送给像素渲染单元完成最后的贴图工作，最后再输出到显示器就成为我们所看到的3D画面。而显卡的顶点处理能力不足，就会导致要么降低画质，要么降低速度。

在相同的显示核心下，顶点着色单元的数量就决定了显卡的性能高低，数量越多也就意味着性能越高，例如具有6个顶点着色单元的GeForce 6800GT就要比只具有5个顶点着色单元的GeForce 6800性能高：但在不同的显示核心架构下顶点着色单元的数量多则并不一定就意味着性能越高，这还要取决于顶点着色单元的效率以及显卡的其它参数，例如具有4个顶点着色单元的Radeon 9800Pro其性能还不如只具有3个顶点着色单元的GeForce 6600GT。

流处理器

　　流处理器是直接将多媒体的图形数据流映射到流处理器上进行处理的,有可编程和不可编程两种。1995年公布的名为Cheops中的流处理器,是针对某一个特定的视频处理功能而设计的一种不可编程的流处理器。但为了得到一定的灵活性,系统中也包含一个通用的可编程处理器。

　　从1996年到2001年,MIT和Standford针对图像处理的应用,研制了名为 Imagine 的可编程流处理器。Imagine流处理器没有采用cache,而是采用一个流寄存器文件SRF(Stream Register File),作为流（主）存储器与处理器寄存器之间的缓冲存储器,来解决存储器带宽问题的。流存储器与SRF之间的带宽是2GB/s,SRF与处理器寄存器之间的带宽是32GB/s, ALU簇（ALU Cluster）内寄存器与ALU之间的带宽是544GB/s,三种带宽的比例关系为1:16:272。
　　抗锯齿是3D特效中最重要的效果之一，它经过多年的发展，变为一个庞大的家庭，有必要独立开来说明一下。
　　作用：去除物体边缘的锯齿现象，广州话称之为“狗牙”，大家可以想像一下狗牙是如何的凹凸不平。
　　过程：我们在真实世界看到的物体，由无限的像素组成，不会看到有锯齿现象，而显示器没有足够多的点来表现图形，点与点之间的不连续就造成了锯齿。
　　抗锯齿通过采样算法，在像素与像素之间进行平均值计算，增加像素的数目，达到像素之间平滑过渡的效果。去掉锯齿后，还可以模拟高分辨率游戏的精致画面。它是目前最热门的特效，主要用于1600 * 1200以下的低分辨率。理论上来说，在17寸显示器上，1600 * 1200分辨率已经很难看到锯齿，无须使用抗锯齿算法。如此类推，在19寸显示器上，必须使用1920 x 1080分辨率，总之，越大的显示器，分辨率越高，才越不会看到抗锯齿1920 x 1200。由于RAMDAC（Random Access Memory Digital to Analog Converter，随机存储器数/模转换器）频率和显示器制造技术的限制，我们不可能永无止境地提升显示器和显卡的分辨率，抗锯齿技术变得很有必要了。
　　超级采样抗锯齿
　　最早期的全屏抗锯齿，方法简单直接。首先，图像创建到一个分离的缓冲区，缓冲区图像分辨率高于屏幕分辨率，假设是2*1（或2x），那么缓冲区场景的水平尺寸比屏幕分辨率高两倍，若是2*2（或4x）抗锯齿，缓冲区图像的水平和垂直均比显示图像大两倍。像素计算加倍之后，选取2个或4个邻近像素，此过程称为采样。把这些采样混合起来后，生成的最终像素，拥有邻近像素的特征，那么像素与像素之间的过渡色彩，就变得更为近似，整个图像的色彩过渡趋于平滑。再把最终像素输出到帧缓冲，作为一幅图像存储起来，然后发到显示器，显示出一帧画面。每帧都进行抗锯齿处理，游戏过程中的所有画面都变得带有抗锯齿效果了。
　　游戏卡曼奇四中采用的4X抗锯齿算法，Commanche 4 4xs
　　边缘超级采样抗锯齿
　　超级采样效果很好，但效率极低，严重影响显卡性能。新的4x抗锯齿方法，只把抗锯齿应用于物体边缘，避免占用过大的缓冲区。工作过程比超级采样稍为复杂，几何引擎生成多边形后，光栅单元会进行描色工作，同时检查当前的纹理，看看它是否需要用2x2 采样的方式填充到多边形边缘。如果不是，GPU只计算一种色彩，在中间插入纹理像素，然后用单色填充这个块。这些就是非边缘像素，无须进行抗锯齿处理

什么是DirectX

DirectX并不是一个单纯的图形API，它是由微软公司开发的用途广泛的API，它包含有Direct Graphics(Direct 3D+Direct Draw)、Direct Input、Direct Play、Direct Sound、Direct Show、Direct Setup、Direct Media Objects等多个组件，它提供了一整套的多媒体接口方案。只是其在3D图形方面的优秀表现，让它的其它方面显得暗淡无光。DirectX开发之初是为了弥补Windows 3.1系统对图形、声音处理能力的不足，而今已发展成为对整个多媒体系统的各个方面都有决定性影响的接口。

DirectX 5.0
微软公司并没有推出DirectX 4.0，而是直接推出了DirectX 5.0。此版本对Direct3D做出了很大的改动，加入了雾化效果、Alpha混合等3D特效，使3D游戏中的空间感和真实感得以增强，还加入了S3的纹理压缩技术。同时，DirectX 5.0在其它各组件方面也有加强，在声卡、游戏控制器方面均做了改进，支持了更多的设备。因此，DirectX发展到DirectX 5.0才真正走向了成熟。此时的DirectX性能完全不逊色于其它3D API，而且大有后来居上之势。

DirectX 6.0
DirectX 6.0推出时，其最大的竞争对手之一Glide，已逐步走向了没落，而DirectX则得到了大多数厂商的认可。DirectX 6.0中加入了双线性过滤、三线性过滤等优化3D图像质量的技术，游戏中的3D技术逐渐走入成熟阶段。

DirectX 7.0
DirectX 7.0最大的特色就是支持T&L，中文名称是“坐标转换和光源”。3D游戏中的任何一个物体都有一个坐标，当此物体运动时，它的坐标发生变化，这指的就是坐标转换；3D游戏中除了场景＋物体还需要灯光，没有灯光就没有3D物体的表现，无论是实时3D游戏还是3D影像渲染，加上灯光的3D渲染是最消耗资源的。虽然OpenGL中已有相关技术，但此前从未在民用级硬件中出现。在T&L问世之前，位置转换和灯光都需要CPU来计算，CPU速度越快，游戏表现越流畅。使用了T&L功能后，这两种效果的计算用显示卡的GPU来计算，这样就可以把CPU从繁忙的劳动中解脱出来。换句话说，拥有T&L显示卡，使用DirectX 7.0，即使没有高速的CPU，同样能流畅的跑3D游戏。

DirectX 8.0
DirectX 8.0的推出引发了一场显卡革命，它首次引入了“像素渲染”概念，同时具备像素渲染引擎(Pixel Shader)与顶点渲染引擎(Vertex Shader)，反映在特效上就是动态光影效果。同硬件T&L仅仅实现的固定光影转换相比，VS和PS单元的灵活性更大，它使GPU真正成为了可编程的处理器。这意味着程序员可通过它们实现3D场景构建的难度大大降低。通过VS和PS的渲染，可以很容易的宁造出真实的水面动态波纹光影效果。此时 DirectX的权威地位终于建成。

DirectX 9.0
2002年底，微软发布DirectX9.0。DirectX 9中PS单元的渲染精度已达到浮点精度，传统的硬件T&L单元也被取消。全新的VertexShader(顶点着色引擎)编程将比以前复杂得多，新的VertexShader标准增加了流程控制，更多的常量，每个程序的着色指令增加到了1024条。

PS 2.0具备完全可编程的架构，能对纹理效果即时演算、动态纹理贴图，还不占用显存，理论上对材质贴图的分辨率的精度提高无限多；另外PS1.4只能支持 28个硬件指令，同时操作6个材质，而PS2.0却可以支持160个硬件指令，同时操作16个材质数量，新的高精度浮点数据规格可以使用多重纹理贴图，可操作的指令数可以任意长，电影级别的显示效果轻而易举的实现。

VS 2.0通过增加Vertex程序的灵活性，显著的提高了老版本(DirectX8)的VS性能，新的控制指令，可以用通用的程序代替以前专用的单独着色程序，效率提高许多倍；增加循环操作指令，减少工作时间，提高处理效率；扩展着色指令个数，从128个提升到256个。

增加对浮点数据的处理功能，以前只能对整数进行处理，这样提高渲染精度，使最终处理的色彩格式达到电影级别。突破了以前限制PC图形图象质量在数学上的精度障碍，它的每条渲染流水线都升级为128位浮点颜色，让游戏程序设计师们更容易更轻松的创造出更漂亮的效果，让程序员编程更容易。

DirectX 9.0c
与过去的DirectX 9.0b和Shader Model 2.0相比较，DirectX 9.0c最大的改进，便是引入了对Shader Model 3.0(包括Pixel Shader 3.0 和Vertex Shader 3.0两个着色语言规范)的全面支持。举例来说，DirectX 9.0b的Shader Model 2.0所支持的Vertex Shader最大指令数仅为256个，Pixel Shader最大指令数更是只有96个。而在最新的Shader Model 3.0中，Vertex Shader和Pixel Shader的最大指令数都大幅上升至65535个，全新的动态程序流控制、位移贴图、多渲染目标（MRT）、次表面散射 Subsurface scattering、柔和阴影 Soft shadows、环境和地面阴影 Environmental and ground shadows、全局照明（Global illumination）等新技术特性，使得GeForce 6、GeForce7系列以及Radeon X1000系列立刻为新一代游戏以及具备无比真实感、幻想般的复杂的数字世界和逼真的角色在影视品质的环境中活动提供强大动力。

因此DirectX 9.0c和Shader Model 3.0标准的推出，可以说是DirectX发展历程中的重要转折点。在DirectX 9.0c中，Shader Model 3.0除了取消指令数限制和加入位移贴图等新特性之外，更多的特性都是在解决游戏的执行效率和品质上下功夫，Shader Model 3.0诞生之后，人们对待游戏的态度也开始从过去单纯地追求速度，转变到游戏画质和运行速度两者兼顾。因此Shader Model 3.0对游戏产业的影响可谓深远。

显卡的光栅单元

通常的3D处理可以分成4个主要步骤，几何处理、设置、纹理和光栅
光栅单元就是之处理光栅的单元越多显卡越高档

游戏物理加速卡原理

当系统当中没有PPU时，NovodeX以软件方式处理所有的物理运算，然后把运算结果传给上层的游戏引擎；当系统有PPU时，所有的物理运算将交给PPU进行处理。　　把物理运算交给一个特定的硬件去完成，可以把CPU从繁重的运算中解脱出来，不再成为游戏中的瓶颈，像HL2这类游戏就可以运行的更流畅

ppu能做些什么

　　除了平时我们常说的刚体运动、水流动、毛发模拟、衣物模拟和山崩等效果外，有了PPU你将能够和游戏场景中所有的物体相互作用，甚至细小到一块小石子。

　　现在的游戏中的大范围物理效果都是游戏预先就设定好的。举个例子，你来到一个水坝前，你要把水坝炸毁，如果是现在的游戏，无论你从哪个角度下手，爆炸的效果和碎片的飞落都是一定的。而未来的游戏，可能你在不同的角度用不同威力的武器，对水坝的损害效果都会完全不同：你可以将水坝彻底炸毁；可以在水坝上炸开一个大洞，让水哗哗地涌出；也可以在水坝上开很多很多的小洞，等水慢慢流出来，直到水坝承受不住压力，整个被水冲垮……

AGEIA的奠基人兼CEO Manju Hegde说：“我们目标是创造一款可以实时模拟物理运动的处理器，让用户获得从未有过的体验。”Value公司的CEO说：“有物理模拟的游戏与没有物理模拟的游戏玩起来有天壤之别”。从HL2的物理效果我们就可以看出，前后两代游戏的差别。但是目前的游戏远远没有达到AGEIA所想象的：未来的游戏，你可以使用游戏场景中的任何物品去破坏场景中的其他物品。

显卡介绍

1) HPDR技术运用着色、过滤、纹理和混合处理中的浮点功能，为影像清晰度和画面品质设立新的标准，让视觉效果处理呈现前所未有的渲染图像品质。 Shader Model 4.0 的下一代高点和像素可编程性。Shader Model 4.0 的参考标准，为 OpenGL 和下一代 DirectX 10 行业领先的专业应用程序实现了更高的性能和逼真效果。

2) 旋转格线全景反锯齿技术 (RG FSAA):旋转格线FSAA抽样演算法采用非常复杂的抽样模式，显着提升色彩准确性和边缘 / 线条的图形品质。高达32x 的 FSAA 可以在分辨率最高1920x1200 的情况下极大地减少图像的「锯齿」，从而使画面更加逼真。

3) GPU计算，NVIDIA CUDA技术可提供C语言环境和完整的工具套装，这些优势可以释放整体性能以便解决复杂的视觉应用，例如实时射线轨迹以及互动声音渲染。Gen 2 兼容使数据传输速率翻倍，每通道可达5 GB/秒，总共可取得双向16 GT/秒的带宽（每个方向8 GB/秒）。

4）图形 API 扩展NVIDIA 提供了用于 Linux 和Windows 的 API 扩展集合，让应用程序可以最大限度利用硬件的功能。统一驱动程式架构 (UDA)，UDA指所有NVIDIA工作站显示卡皆使用相同的驱动程式，确保驱动程式之间的向下和向上相容性，大大简化NVIDIA 新产品的驱动程式更新工作。

5）12位元次像素精确度，比竞争对手工作站图形晶片的精确度高叁倍以上，12位元次像素精确度可呈现最佳的几何精确度，消除闪烁、裂纹和其他光栅化异常。32位元浮点精确性，透过在着色、过滤、纹理和混合处理上有优秀表现的32位元浮点功能，为图像清晰度和画面品质设立了新标准，让视觉效果的处理工作展现前所未有的渲染图像品质。32 位过滤和混合为视像效果处理实现了前所未有的着色图像品质。进阶色彩压缩技术 / 无失真Z座标压缩 (Early Z-Cull)，改良後的管线色彩压缩和无失真Z座标压缩技术，能增加有效的频宽，改善渲染的效率和性能。

6) Cg 高级图形 Shader 语言，Cg “C”代表图形是利用了可编程 GPU 功能的用於 OpenGL 的高级、开放标准编程语言。NVIDIA Quadro FX 可编程管道利用高级着色语言来创建实时照片级效果并将其集成到3D 模型、场景和设计。这代表了在 MCAD、DCC 和科学应用程序中创建实时、逼真图形方便性和速度方面的重大飞跃。
7) 全128位元浮点精确度管线，复杂的3D效果需要众多高准确度的数据运算要求，以确保图像品质。Quadro FX系列拥有业界唯一真正的128位元浮点运算的3D图形管线，能够在一个宽广的动态范围内，为图形提供千百万种色彩，同时还提供令人惊叹的视觉质感以及最高的精度。另外还运用着色、过滤、纹理和混合处理中的32位元浮点功能，为影图清晰度和品质设立新的标准。

8) 高效能OpenGL硬体加速像素读回，速度在1.0GB/s以上的10倍速像素读回性能可提供非常高的主机输出量，达上一代图像处理系统性能的5倍以上。 HD 分量输出，可以在广播显示器或HDTV 上以真彩色实现视频内容的预览。Jumbo 8K 纹理处理，更快地处理大型纹理，在缩放和平移高分辨率图像时可以实现更高的性能。双Dual-Link数位萤幕接口，Dual-link TMDS转接器支援超高解析度显示器，并可产生令人惊叹的图像品质与细致的照片真实影像。

9）nView多重显示技术，提供具有充分弹性的多重显示选择，并且为一般使用者提供了整合便利的桌面控制体验。nView可让一般使用者选择任何多重显示的组合，包括数位平面萤幕、类比式CRT及电视，利用革命性的方法，让您能更容易以多工作业方式处理资讯，并以整合的软体介面来修改显示内容。
10）全面支持Vista视窗作业系统，提供美丽的3D使用者介面，有效提升应用程式的效能及提供极细致的画面。丽台 Quadro 系列专业绘图卡芯片架构是专为新一代的作业系统而设，配合 NVIDIA 的OpenGL ICD 驱动程式专为 32 和 64 位架构而优化，从而实现最佳的Windows Vista体验