2011年11月10日,据NVIDIA官方宣布CUDA Toolkit 4.1 RC1版本发布,目前CUDA注册开发者已经可以下载。

新版本包括一款新的基于LLVM的CUDA编译器,超过一千项新的图像处理功能,以及经过重新设计的具有自动性能分析和集成的专家指导功能的Visual Profiler。

  新版本亮点

  1、新的编译器

  · 基于LLVM的新编译器为大量应用带来10%的性能提升。

  2、GPU加速库带来新的升级版“drop-in”加速机制

  · NPP库中加入了超过一千项新的图像处理函数;

  · 新的cuSPARSE tri-diagonal solver比六核CPU中的MKL(数学核心库)快十倍;

  · 新添加了针对MRG32k3a及Mersenne Twister(马特赛特旋转演算,MTGP11213)RNG算法的cuRAND支持;

  · CUDA标准数学库新增对Bessel函数的支持;

  · 利用ELL混合格式使稀疏矩向量乘法的速度提高了将近两倍;

  3、改进并重新设计的开发工具

  · 经过重新设计的Visual Profiler,具备自动性能分析及专家指导功能;

  · CUDA-GDB支持新增对MPI应用调试、multi-context调试以及在设备代码中的使用assert()函数的支持;

  · CUDA-MEMCHECK现在可以在设备代码中为分配的内存检测访问是否越界;

  · Parallel Nsight 2.1 CDUAwarp查看器可以跨越整个CUDA warp查看变量和表达式;

  · Parallel Nsight 2.1 CUDA profiler现在能够分析kernel内存活动性、执行延时以及指令吞吐量;

  4、高级编程特性

  · 从设备代码访问3D surfaces和cube maps;

  · 增强了系统内存的非阻塞拷贝,移除了cudaHostRegister()对齐以及尺寸约束;

  · 进程之间的点对点通信;

  · 无需在nvidia-smi中重启系统即可重置GPU。

  5、新增及改进的SDK代码示例

  · simpleP2P示例现在支持任意Fermi GPU间的点对点通信;

  · 新的grabcupNPP示例通过重复图形削减展示了交互式前景提取功能;

  · 新增的示例演示了如何为光学流动、执行体积过滤及立方体映射纹理读取实现Horn-Schunck方法。