cudaMemcpy
cudaMemcpy(void * dst,const void * src,size_t count,
cudaMemcpyKind kind)
- dst:destination memory address 第一个为目标地址
- src:source memory address 第二个为源头地址
- cudaMemcpyKind kind:
cudaMemcpyHostToHost
cudaMemcpyHostToDevice
cudaMemcpyDeviceToHost
cudaMemcpyDeviceToDevice
cudaMallocManaged
CUDA 6.0引入统一内存(Unified Memory)来避免这种麻烦,简单来说就是统一内存使用一个托管内存来共同管理host和device中的内存,并且自动在host和device中进行数据传输。CUDA中使用cudaMallocManaged函数分配托管内存:
cudaError_t cudaMallocManaged(void **devPtr, size_t size, unsigned int flag=0);
用cudaMallocManaged·
和 cudaFree
两个函数来分配和释放同时可被 Host 和 Device 访问的内存
// GPU
int N = 10;
size_t size = N * sizeof(int);
int *a;
cudaMallocManaged(&a, size);// 为a分配CPU和GPU内存
cudaFree(a); // 释放GPU内存
cudaMallocManaged
在统一内存中创建了一个托管内存池(CPU上有,GPU上也有),内存池中已分配的空间可以通过相同的指针直接被CPU和GPU访问,底层系统在统一的内存空间中自动地在设备和主机间进行传输。数据传输对应用来说是透明的,大大简化了代码。