1.CUDA概述
CUDA是英伟达公司于2006年提出的通用并行计算架构,通过开启GPU中的多线程并行计算,以比在CPU上更高效的方式解决许多复杂的计算问题。
CUDA提供了一个软件环境,允许开发者使用c++作为高级编程语言。如下图所示,同时也支持其他语言、应用程序编程接口,如FORTRAN、DirectCompute、OpenACC
CUDA核心是三个关键的抽象——线程组的层次结构、共享内存和障碍同步。这些抽象提供了细粒度的数据并行和线程并行,嵌套在粗粒度的数据并行和任务并行中。它们指导程序员将问题划分为粗的子问题,这些子问题可以由线程块独立并行地解决,而每个子问题又可以由块内的所有线程协作并行地解决。
2.编程模型
2.1线程
CUDA c++扩展了c++,允许程序员定义c++函数,称为内核。内核是通过使用”global”说明符定义的,对于给定的内核调用,执行该内核的CUDA线程数是使用一个新的<<<…>>>执行配置语法。每个执行内核的线程都有一个惟一的线程ID,可以在内核中通过内置变量访问这个ID。
下面的示例代码使用内置变量threadIdx、blockDim、blockIdx
两个向量A和B相加,并将结果存储到向量C中: