CUDA硬件架构:
NVIDIA显卡构成:显存颗粒,供应电路,PCI-E接口,NVIO芯片,MIO接口,GPU芯片;
显卡上实现极强的计算能力和极高的存储器以及IO带宽,需要有可靠的电源和有效的散热手段;
显卡的骨架式PCB(Printed Circuit Board,印刷电路板),NVIDIA在发布显卡的同时会发布PCB设计,以及GPU和显存的建议工作频率,称为公版;
部分厂商会各自开发显卡设计,称为非公版;
PCB层数越多,电路的兼容性和稳定性容易做到一个比较理想的水平,造价也会急剧上升;
PCI-E总线:主机与显卡间的通信通过PCI-E总线进行;
发展路线:PCI和ISA总线:与网卡、声卡等其他扩展卡相同;
AGP规范:(Accelerated Graphics Port)一种接口方式,Intel公司提出;显卡专用扩展接口;规格最高的达到2.1GB/s;
PCI-E总线:采用点对点串行连接,每个设备都有自己的专用连接,不需要像整个总线请求带宽;在一个周期中可以同时进行上下行数据传输;可以达到10.0GB/s常见通道数量为*1,*4,*8,*16;
购置显卡的时候应该注意使得主板的PCI-E插槽与设备匹配,否则较低通道数量的PCI-E卡安装在高通道数量的插槽上只能获得较少的通道速度;
显存:显卡需要实现较高的像素填充率,因此显存必须能够远大于内存的带宽;
发展路线:SGRAM;GDDR SDRAM(目前独显采用的主要采用);GDDR2,GDDR3;GDDR4,GDDR5;
DDR与传统SDRAM区别:DDR每个外部时钟周期的上升沿和下降沿都能够传输数据,SDEAM只能在外部时钟周期的上升沿传输数据;即,DDR可以达到SDRAM带宽的两倍;
DDR2:外部IO时钟的频率是内核时钟的两倍,则在每个时钟周期可以进行四次数据传输;GDDR2,GDDR3采用该技术;
GDDR5的IO频率在GDDR3的基础上再次翻番;
GPU芯片:GPU的中心处理器;
NVIDIA GT200核心:集成14亿个晶体管;
GTX295:单卡爽GPU产品;
AMD/ATI: RV770,侧重于减小功耗和芯片面积;
GPU多核与CPU多核通信:
CPU多个核心通信可以通过CPU缓存进行数据一致性;
GPU多核之间缓存只读,不存在数据一致性问题,多个GPU之间很难实现高带宽低延迟的通信,通过PCI-E总线和系统内存交换数据,开销非常高昂;
NVIO系列芯片负责输出视频信号;
MIO接口:可以用于与视频采集设备等通信,也可以用来安装SL1(速力)连接桥,使多块显卡并行工作;