简介
SLI,全称为“可灵活伸缩的连接接口”(Scalable Link Interface),是一种可把两张或以上的显卡连在一起,作单一输出使用的技术,从而达至绘图处理效能加强的效果。该技术最初被称为Scan Line Interleave,于1998年由3dfx公司推出,应用在Voodoo 2绘图处理器上。至2004年,3dfx的收购者NVidia再次推出此技术,应用在以PCI Express为基础的电脑上。
NVIDIA SLI工作原理
     NVIDIA SLI通过MIO数字化通信方式,并行构建多个GPU在PCI Express总线上。新的NVIDIA SLI技术已经“潜伏”在6600GT以上版本的系列产品中。在该类GPU内核中有部分的逻辑被叫做MIO,这些逻辑与引脚直接连接,然后可以再通过PCB上引出。通过MIO接口GPU之间能够快速直接地交换数据。与此同时在显卡PCB上方的MIO接口在组建SLI的时候只要安装一个桥接器即可。很短的布线长度、简单的连接方式和全数字化的内容传输使得NVIDIA SLI技术在实现过程中能始终保持稳定。  sli02.jpg (NV40内核的部分逻辑电路被称做MIO) 并行处理技术中最为关键是NVIDIA的动态负载平衡技术。当年所有的板卡都因为并行模式下的负载平衡问题而出现无法突破的障碍和技术缺陷, NVIDIA SLI的动态负载平衡分配将会有多种模式,在默认情况下驱动程序会选择效率最高的一种方式自动完成后来的性能分配。数据通过PCI Express总线到达主GPU,那所有的GPU-to-GPU通信就通过NVIDIA的视频桥来处理了。视频桥是直接连接GPU的总线,被用于从一个GPU的帧缓存器直接向另一个传送数据。MIO能够以最高10GB/s传送数据,由于PCI Express总线延迟问题和带宽约束,这就是为什么选择MIO来直接沟通GPU之间通信的原因。
NVIDIA的动态负载平衡技术在维持着色渲染中的对称上,扮演了一个重要的角色,当然,动态负载平衡技术包含在NVIDIA支持SLI的驱动程序之内,可以随着最新的应用程序和游戏提供不断更新的硬件配置文件和渲染着色方式。随着驱动程序的更新以提供更新更好的支持,这也是为什么企业和用户选择NVIDIA产品的重要原因。动态负载平衡技术考虑工作量并作出两个关键决定:1)决定渲染着色方法,2)根据渲染着色方法,决定两个GPU之间的工作量分担。
sli03.jpg (SLI动态负载平衡演示) 实际上NVIDIA的SLI系统有三种工作模式:首先第一种就是:兼容模式(compatible Mode),只有主显卡参与工作,整体系统图形性能是单显卡成绩。但副显卡可以多提供2个显示器连接,对于多屏幕游戏和工作具有实际意义;第二种:分屏渲染模式(Split Frame Rendering——SFR): 是把一个单帧的着色渲染工作分配到两个GPU当中。并又驱动程序智能地动态分配工作量,以达到步调协调并取得性能提升。第三种:交替渲染模式(Alternate Frame Rendering——AFR):一块显卡处理所有偶数帧,另一块显卡则处理所有奇数帧,编译的程序分为两部分,以共同合作同帧画面,同样取得性能提升。驱动程序平时并不确定使用AFR还是SFR,NVIDIA为100多个流行游戏中的大多数并为每一个创建了配置文件,决定在每个游戏中它们默认应该使用AFR还是SFR模式。只要帧之间没有依赖关系,NVIDIA的驱动程序就默认为AFR;例如在某些使用慢动作特效的游戏中,游戏本身并不清除帧缓存器,会紧接着前一个帧对下一个帧着色,把两个帧混合在一起来获得慢动作效果,在这种情况下有一个帧对帧的依赖,AFR就不能用了。如果AFR不能用,那么就用SFR,但现在驱动程序必须确定每个帧的多大部分被发送给GPU 1和GPU 2。因为驱动程序能够依靠两个速度严格相同的GPU,所以它可以对负荷的分配作出有根据的推测。这个有根据的推测是通过存储了每个GPU在已结束几个帧中的负荷历史表来得出的。基于存储在这个历史表中的结果,NVIDIA的驱动程序会作出一个预测,决定对后面帧的着色应该怎样在两个GPU之间分配,从而调整负荷系数。这就像CPU中的分支预报器。
扩展
      多亏有了 Fermi 的架构创新,英伟达速力 (SLI) 扩展才前所未有的强大。 在多款流行的游戏中,通过增加一块 GPU,性能可以提高 80% 以上,有时甚至可以提高 100%。

geforce-gtx-480-sli-scaling.png
特性
      英伟达速力 (SLI) 不仅能提高性能,也拥有诸多先进的特性。 对于 PhysX 游戏,英伟达速力 (SLI) 能指定第二块 GPU 进行物理效果计算,实现逼真的流体、块粒和破坏等震撼的效果。 对于英伟达 CUDA 应用程序,第二块 GPU 可以用来进行 Folding@home 或视频译码等计算。 最后,对于终极画质,两块 GPU 时英伟达速力 (SLI) 抗锯齿可以高达 64xAA,三块 GPU 时高达 96xAA,四块 GPU 时高达 128xAA。