c++ cuda拷贝内存

AI算法网奇

已于 2022-03-27 23:40:25 修改

阅读量1.9k

点赞数 1

分类专栏： cuda 文章标签：蓝桥杯 fpga开发拓扑学

于 2021-12-11 20:57:45 首次发布

原文链接：https://developer.nvidia.com/zh-cn/blog/how-overlap-data-transfers-cuda-cc/

版权

cuda 专栏收录该内容

121 篇文章 14 订阅

订阅专栏

先说点基础知识：

复制A到B：

cudaMemcpy(B,A)

cudaMemcpy用于在主机（Host）和设备（Device）之间往返的传递数据，用法如下：

主机到设备：cudaMemcpy(d_A,h_A,nBytes,cudaMemcpyHostToDevice)

设备到主机：cudaMemcpy(h_A,d_A,nBytes,cudaMemcpyDeviceToHost)

注意：该函数是同步执行函数，在未完成数据的转移操作之前会锁死并一直占有CPU进程的控制权，所以不用再添加cudaDeviceSynchronize()函数

以上内容原文链接：https://blog.csdn.net/u012229282/article/details/106103623/

https://developer.nvidia.com/zh-cn/blog/how-overlap-data-transfers-cuda-cc/

分批拷贝：

https://github.com/NVIDIA-developer-blog/code-samples/blob/master/series/cuda-cpp/overlap-data-transfers/async.cu

 float *a, *d_a;
  checkCuda( cudaMallocHost((void**)&a, bytes) );      // host pinned
  checkCuda( cudaMalloc((void**)&d_a, bytes) ); // device

for (int i = 0; i < nStreams; ++i) {
  int offset = i * streamSize;
  cudaMemcpyAsync(&d_a[offset], &a[offset],
                  streamBytes, cudaMemcpyHostToDevice, cudaMemcpyHostToDevice, stream[i]);
}

for (int i = 0; i < nStreams; ++i) {
  int offset = i * streamSize;
  kernel<<<streamSize/blockSize, blockSize, 0, stream[i]>>>(d_a, offset);
}

for (int i = 0; i < nStreams; ++i) {
  int offset = i * streamSize;
  cudaMemcpyAsync(&a[offset], &d_a[offset],
                  streamBytes, cudaMemcpyDeviceToHost, cudaMemcpyDeviceToHost, stream[i]);
}

AI算法网奇

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
c++ cuda拷贝内存

https://developer.nvidia.com/zh-cn/blog/how-overlap-data-transfers-cuda-cc/分批拷贝：for (int i = 0; i < nStreams; ++i) { int offset = i * streamSize; cudaMemcpyAsync(&d_a[offset], &a[offset], streamBytes, cudaMemcpyHostT..
复制链接

扫一扫