在2010年9月份推出CUDA Toolkit 3.2 RC发布候选版进行测试后,NVIDIA今天发布了最终正式版本的CUDA 3.2工具包。新版本在性能上有了明显的提升,同时扩展了函数库,改进了集群管理特性,当然还包括对新硬件的支持。
CUDA Toolkit 3.2新特性包括:
扩充和改进CUDA函数库:
1. CUBLAS在Fermi架构下的矩阵乘法和置换性能提升50%到300%
2. CUFFT在Fermi架构下基数3、5、7的转换性能相比MKL加速2到10倍。
3. 新增CUSPARSE GPU加速稀疏矩阵函数库,性能比MKL快5到30倍。
4. 新增CURAND GPU加速随机数生成函数库,比MKL快10到20倍。
5. 加入H.264编解码库。
CUDA驱动和CUDA C改进:
- 支持6GB显存Quadro或Tesla卡。
- 在Windows平台工作站上支持Tesla开启Tesla Compute Cluster (TCC) 集群模式。
开发工具改进:
- CUDA-gdb和Parallel Nsight支持多GPU Debug。
- cuda-memcheck支持扩展至所有Fermi架构GPU。
- NVCC支持64bit Linux下的Intel C Compiler (ICC) v11.1
- 支持在4GB以上内存系统上进行GPU Debug。
其他:
- 支持在CUDA C核心使用malloc()/free()进行内存管理。
- NVIDIA System Management Interface (nvidia-smi)支持汇报GPU使用率以及多个GPU性能计数器。
新增多个CUDA GPU运算SDK程序样例。
CUDA Toolkit 3.2正式版下载:http://developer.nvidia.com/object/cuda_3_2_downloads.html