全新NV CUDA4.0版本令并行编程更轻松

最新推荐文章于 2018-11-11 01:02:15 发布

Tsingke

最新推荐文章于 2018-11-11 01:02:15 发布

阅读量1.2k

点赞数

分类专栏： CUDA/MIC 文章标签： cuda 编程工具图形多线程 profiler

本文链接：https://blog.csdn.net/tsingke/article/details/6298671

版权

CUDA/MIC 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

统一的虚拟寻址、GPU间通信以及增强型C++模板库让更多开发人员能够利用GPU计算

2011年2月28日—美国加利福尼亚州圣克拉拉市— 英伟达™（NVIDIA®）公司今天发布了最新版本的英伟达CUDA工具包。借助该工具包，开发人员能够开发出在英伟达GPU上运行的并行应用程序。

英伟达CUDA 4.0工具包旨在让并行编程变得更加容易，并且让更多开发人员能够将应用程序移植到GPU上来。因此，该版本软件包含下列三大特性:

英伟达™（NVIDIA®）GPUDirect™ 2.0技术 – 支持一台服务器或工作站内多GPU之间的点对点通信。这让多GPU编程更加轻松并且能够提升应用程序性能。

统一虚拟寻址 (UVA) – 能够为主系统内存和显卡显存提供一个合并的存储器地址空间，让并行编程变得更快、更容易。

Thrust C++模板高性能基元库 – 能够提供一系列强大的开源C++并行算法和数据结构，这些内容能够让C++开发人员的编程工作变得轻松。与使用标准模板库(STL)以及线程构件(TBB)时相比，通过利用Thrust，并行排序等例程的速度可提升5至100倍。

美国伊利诺伊大学厄本那香槟分校资深研究程序员John Stone表示：“统一虚拟寻址以及更快的GPU间通信速度让开发人员能够更加轻松地利用GPU的并行计算能力。”

Quantifi公司利率产品总监Peter Decrem指出：“人们可以通过标准模板接口利用GPU计算来为各种任务提升效率。能够处理的任务从简单的现金流生成到Libor市场模型、变额年金或CVA调整等复杂的计算，可谓是十分广泛。Thrust C++库通过处理存储器存取和分配等低级功能，从而大幅降低了入门门槛，让金融工程师在GPU增强性能的环境下能够把精力集中到算法开发上来。”

英伟达CUDA 4.0架构版本包含大量其它特性与功能，其中包括:

MPI与CUDA应用程序相结合 – 当应用程序发出MPI收发调用指令时，例如OpenMPI等改编的MPI软件可通过Infiniband与显卡显存自动收发数据。

GPU多线程共享 – 多个CPU主线程能够在一颗GPU上共享运行环境，从而使多线程应用程序共享一颗GPU变得更加轻松。

单CPU线程共享多GPU – 一个CPU主线程可以访问系统内的所有GPU。开发人员能够轻而易举地协调多颗GPU上的工作负荷，满足应用程序中“halo”交换等任务的需要。

全新的NPP图像与计算机视觉库 – 其中大量图像变换操作让开发人员能够快速开发出成像以及计算机视觉应用程序。

全新、改良的功能
Visual Profiler中的自动性能分析功能
Cuda-gdb中的新特性以及新增了对MacOS的支持
新增了对C++特性的支持，这些特性包括新建/删除以及虚拟等功能
全新的GPU二进制反汇编程序
自2011年3月4日起，只需报名参加CUDA注册开发者计划，即可免费获得英伟达CUDA Toolkit 4.0候选版，报名网址为: www.nvidia.com/paralleldeveloper。 CUDA注册开发者计划可提供丰富的工具、资源以及信息，让并行应用程序开发人员能够最大限度地发挥英伟达CUDA技术的潜力。

至于CUDA工具包和GPGPU应用程序的特性与功能，如需了解相关的更多信息，敬请访问: www.nvidia.com/cuda。

关于英伟达公司

1999年，英伟达公司发明了图形处理器（GPU），让全世界重新认识了计算机图形的威力。自那时起，英伟达不断为视觉计算树立全新标准，其令人叹为观止的交互式图形产品可广泛用于从平板电脑和便携式媒体播放器到笔记本与工作站等各种设备之上。英伟达在可编程图形处理器方面拥有先进的专业技术，在并行处理方面实现了诸多突破，从而普及了低价超级计算机的使用。公司在全球范围内持有1,700多项专利，其中涵盖了关乎现代计算之根本的诸多设计与深刻见解。如需了解更多信息，敬请访问www.nvidia.com。