《GPU高性能编程CUDA实战》

最新推荐文章于 2024-08-23 23:22:28 发布

ubunfans

最新推荐文章于 2024-08-23 23:22:28 发布

阅读量4.2k

点赞数 1

文章标签： cuda 编程

本文链接：https://blog.csdn.net/ubunfans/article/details/46495753

版权

本文是对《GPU高性能编程CUDA实战》的学习总结，涵盖了CUDA入门、核函数、内存分配、并行编程、线程协作、常量内存、原子操作和流等内容。CUDA由NVIDIA提出，适用于配备NVIDIA显卡的系统。文章通过实例介绍了CUDA C的语法和关键概念，如核函数的使用、数据在内存与显存间的拷贝、并行计算的实现方式，以及如何利用流提高任务执行效率。

摘要由CSDN通过智能技术生成

看了CUDA大概有10多天了，这里对学习内容做一个总结，主要参考的是《GPU高性能编程CUDA实战》这本书。
CUDA架构是有英伟达(NVIDIA)提出的，因此只能在配备英伟达显卡的电脑上使用，具体哪些型号的显卡支持CUDA，支持那一代的CUDA可以参考CUDA支持显卡列表。
我是在windows下使用CUDA，只要从官网下好toolkit安装好就可了，不需要过多的配置。如果是在linux下进行开发，可以参考Ubuntu12.04配置NVIDIA cuda5.5经验贴
CUDA C是C语言的一个扩展，是在C语言基础上添加了一些CUDA专用的语法，关键字。

入门

核函数

为了方便描述，把CPU称为主机，把显卡称为设备，主机上的内存就称为内存，显卡上的缓存称为显存。
核函数以__global__修饰，告诉编译器这是需要设备来执行的代码，例如：

__global__ void kernel()
{
    printf("Hello, world!");
}

核函数和主机执行的函数在传递参数方面没有什么不一样，看下面向量相加的代码：

__global__ void add(int *a, int *b, int *c)
{
    int i = threadIdx.x+blockIdx.x*blockDim.x;
    c[i] = a[i]+b[i];
}

a,b是两个输入向量，c是输出向量，大括号内的代码是执行部分。由于代码在GPU中是多线程同时执行，每个线程都有核函数的一份拷贝，因此每个线程要找到自己计算的数据，上边大括号内第一行就是计算当前线程需要计算的数据的下标，第二行就是把对应位置的两个数加起来存放在向量c中。这一段代码假设了线程数量和向量长度是相等的。