博主CUDA学习系列汇总传送门(持续更新):编程语言|CUDA入门
本章节学习内容:
1、CUDA的内存开辟、复制和释放
2、CUDA编程的七个步骤
一、cudaMalloc、cudaMemcpy和cudaFree 介绍
cuda可以像调用C函数那样将参数传递给核函数
当设备执行任何有用的操作时,都需要分配内存,例如将计算机返回给主机。
来看CUDA内存空间开辟、内存复制和内存释放函数
static __inline__ __host__ cudaError_t cudaMalloc(
T **devPtr,
size_t size
)
extern __host__ cudaError_t CUDARTAPI cudaMemcpy(void *dst, const void *src, size_t count, enum cudaMemcpyKind kind);
第四个参数:
cudaMemcpy分 内存从主机拷贝到GPU端,从GPU拷贝到主机,从GPU拷贝到GPU。
/**
* CUDA memory copy types
*/
enum __device_builtin__ cudaMemcpyKind
{
cudaMemcpyHostToHost = 0, /**< Host -> Host */
cudaMemcpyHostToDevice = 1, /**< Host -> Device */
cudaMemcpyDeviceToHost = 2, /**< Device -> Host */
cudaMemcpyDeviceToDevice = 3, /**< Device -> Device */
cudaMemcpyDefault = 4 /**< Direction of the transfer is inferred from the pointer values. Requires unified virtual addressing */
};
extern __host__ __cudart_builtin__ cudaError_t CUDARTAPI cudaFree(void *devPtr);
二、CUDA编程七步曲
一个完整的CUDA代码需要包含七个步骤:
1、获取设备
2、分配显存
3、数据传输 (从CPU到GPU)
4、核函数
5、数据传输(从GPU到CPU)
6、释放显存空间
7、重置设备(可以省略)
#include <iostream>
#include "cuda_runtime.h"
__global__ void add(int a, int b, int *c)
{
*c = a + b;
}
int main() {
int *c;
int *dev_c;
cudaError_t cudaStatus;
cudaStatus = cudaMalloc(&dev_c, sizeof(int)); // 开辟内存
if(cudaSuccess != cudaStatus)
{
fprintf(stderr, "cuda melloc error!");
return -1;
}
add<<<1, 1>>>(2, 7, dev_c); // 核函数计算
cudaStatus = cudaMemcpy(&c, dev_c, sizeof(int), cudaMemcpyDeviceToHost); // 从GPU端拷贝到CPU端
printf("2 + 7 = %d \n", c);
cudaFree(dev_c); // 释放GPU上的内存
std::cout << "Hello, World!" << std::endl;
return 0;
}