CUDA笔记一（atomicAdd）

最新推荐文章于 2024-03-04 14:23:36 发布

nanjono

最新推荐文章于 2024-03-04 14:23:36 发布

阅读量2.3k

点赞数 3

文章标签： c++ 人工智能

本文链接：https://blog.csdn.net/nanjono/article/details/129971327

版权

atomicAdd 是 CUDA 中的一个原子加函数，用于实现在多个线程同时修改同一个全局变量的情况下，保证数据一致性和正确性。
它的语法如下：

int atomicAdd(int* address, int val)；
//address 是一个指向需要修改的整型变量的地址
//val是需要进行原子加的值。

该函数会将原始值和 val 相加，并将结果存储在 address 所指向的内存位置，同时返回原始值。
当多个线程同时调用 atomicAdd 函数时，CUDA 会自动为它们创建一个硬件级的同步访问机制，从而避免了数据竞争和数据不一致性的问题。

使用atomicAdd函数的示例

__global__ void addKernel(int* a, int* b, int* c)
{
    int i = threadIdx.x;
    atomicAdd(&c[i], a[i] + b[i]);
}

int main()
{
    int N = 50;
    int*a, *b, *c;
    a = (int*)malloc(N * sizeof(int));
    b = (int*)malloc(N * sizeof(int));
    c = (int*)malloc(N * sizeof(int));

    for (int i = 0; i < N; i++) {
        a[i] = i;
        b[i] = 1;
        c[i] = 0;
    }

    int*a_dev, *b_dev, *c_dev;
    cudaMalloc((void**)&a_dev, N * sizeof(int));
    cudaMalloc((void**)&b_dev, N * sizeof(int));
    cudaMalloc((void**)&c_dev, N * sizeof(int));

    cudaMemcpy(a_dev, a, N * sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(b_dev, b, N * sizeof(int), cudaMemcpyHostToDevice);

    addKernel << <1, N >> > (a_dev, b_dev, c_dev);

    cudaMemcpy(c, c_dev, N * sizeof(int), cudaMemcpyDeviceToHost);

    for (int i = 0; i < N; i++) {
        printf("c[%d] = %d\n", i, c[i]);
    }

    cudaFree(a_dev);
    cudaFree(b_dev);
    cudaFree(c_dev);
    free(a);
    free(b);
    free(c);

    return 0;
}

上面示例中，定义了一个 addKernel函数，它会在每个线程中使用原子加函数 atomicAdd 来将 b[i] 的值加到 a[i] 上，并将结果存储在 c[i] 中。在 main 函数中，我们分配了 CPU 端和 GPU 端的内存空间，并将数据传输到 GPU 端。我们通过 addKernel 函数在 GPU 上执行并获得结果，最后将计算结果传输回 CPU 并输出。