CUDA学习(四):CUDA编程七个步骤

最新推荐文章于 2025-05-04 22:38:21 发布

hjxu2016

最新推荐文章于 2025-05-04 22:38:21 发布

阅读量4.7k

点赞数 7

分类专栏：编程语言|CUDA入门

本文链接：https://blog.csdn.net/hjxu2016/article/details/107074430

版权

编程语言|CUDA入门专栏收录该内容

19 篇文章

订阅专栏

本文详细介绍了CUDA编程的基础知识，包括cudaMalloc、cudaMemcpy和cudaFree等关键函数的使用，以及CUDA编程的七个核心步骤。通过实例展示了如何在GPU上进行内存分配、数据传输和核函数调用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

博主CUDA学习系列汇总传送门（持续更新）：编程语言|CUDA入门

文章目录

- 一、cudaMalloc、cudaMemcpy和cudaFree 介绍
- 二、CUDA编程七步曲

本章节学习内容：
1、CUDA的内存开辟、复制和释放
2、CUDA编程的七个步骤

一、cudaMalloc、cudaMemcpy和cudaFree 介绍

cuda可以像调用C函数那样将参数传递给核函数
当设备执行任何有用的操作时，都需要分配内存，例如将计算机返回给主机。

来看CUDA内存空间开辟、内存复制和内存释放函数

static __inline__ __host__ cudaError_t cudaMalloc(
  T      **devPtr,
  size_t   size
)

extern __host__ cudaError_t CUDARTAPI cudaMemcpy(void *dst, const void *src, size_t count, enum cudaMemcpyKind kind);

第四个参数：
cudaMemcpy分内存从主机拷贝到GPU端，从GPU拷贝到主机，从GPU拷贝到GPU。

/**
 * CUDA memory copy types
 */
enum __device_builtin__ cudaMemcpyKind
{
    cudaMemcpyHostToHost          =   0,      /**< Host   -> Host */
    cudaMemcpyHostToDevice        =   1,      /**< Host   -> Device */
    cudaMemcpyDeviceToHost        =   2,      /**< Device -> Host */
    cudaMemcpyDeviceToDevice      =   3,      /**< Device -> Device */
    cudaMemcpyDefault             =   4       /**< Direction of the transfer is inferred from the pointer values. Requires unified virtual addressing */
};

extern __host__ __cudart_builtin__ cudaError_t CUDARTAPI cudaFree(void *devPtr);

二、CUDA编程七步曲

一个完整的CUDA代码需要包含七个步骤：
1、获取设备
2、分配显存
3、数据传输（从CPU到GPU）
4、核函数
5、数据传输（从GPU到CPU）
6、释放显存空间
7、重置设备（可以省略）

#include <iostream>
#include "cuda_runtime.h"

__global__ void add(int a, int b, int *c)
{
    *c = a + b;
}
int main() {
    int *c;
    int *dev_c;
    cudaError_t cudaStatus;
    cudaStatus = cudaMalloc(&dev_c, sizeof(int)); // 开辟内存
    if(cudaSuccess != cudaStatus)
    {
        fprintf(stderr, "cuda melloc error!");
        return -1;
    }
    add<<<1, 1>>>(2, 7, dev_c);  // 核函数计算
    cudaStatus = cudaMemcpy(&c, dev_c, sizeof(int), cudaMemcpyDeviceToHost); // 从GPU端拷贝到CPU端
    printf("2 + 7 = %d \n", c);
    cudaFree(dev_c); // 释放GPU上的内存

    std::cout << "Hello, World!" << std::endl;
    return 0;
}