VS2017 CUDA编程学习12：CUDA流

最新推荐文章于 2024-06-27 18:17:53 发布

DU_YULIN

最新推荐文章于 2024-06-27 18:17:53 发布

阅读量3.2k

点赞数 2

分类专栏： CUDA编程文章标签： CUDA编程

本文链接：https://blog.csdn.net/DU_YULIN/article/details/121296344

版权

本文介绍了CUDA流的概念，将其比喻为GPU上的工作队列，用于实现任务并行。CUDA流中的工作是串行执行的，但不同流之间可并行执行，提高程序性能。通过C++实例展示了如何创建和使用CUDA流进行异步数据传输和运算，最后讨论了CUDA流在实际应用中的价值。

摘要由CSDN通过智能技术生成

前言

今天跟大家分享CUDA编程中一个重要概念：CUDA流。

1. CUDA流的理解

之前介绍的GPU内核函数，通过多线程实现加速，可以理解为数据并行。而CUDA流可以理解为任务并行，即多个相互独立的内核函数同时执行。

CUDA流是GPU上的工作队列，队列中的工作将以特定的顺序执行。队列中的工作主要包括：内核函数的调用， cudaMemcpy系列的数据传输，以及CUDA事件的操作。CUDA流中工作的顺序以添加的顺序来执行，先加入的先执行，即每个CUDA流中的工作是串行执行的。

2. C++ 实现CUDA流

这里以GPU上加法操作为例实现CUDA流。

例子中主要调用一下API:
cudaHostAlloc/cudaFreeHost(): 使用页面锁定内存为CPU设备变量分配内存，页面锁定内存，简单理解就是内存数据永远存储在内存上，不会转储到硬盘空间来暂存，缺点是如果内存一直不释放，将造成内存高使用率，可能影响其他程序的运行；

cudaMemcpyAsync:用于异步传输数据，和cudaMemcpy函数相比，多了最后一个参数 - 指定一个特定的CUDA流，从而在这个特定的CUDA流中进行存储器传输操作。这里注意，异步操作是指当该函数返回时，实际的存储器传输操作可能尚未完成，甚至尚未开始。

这里要注意，每个CUDA流中的工作是串行的，而流和流之间则默认不保证顺序。每个流程都有传输和计算工作，这样不同的流间计算和传输工作可以并行执行，起到加速的作用，进而提升程序性能。

cudaStreamSynchronize(): 确保CUDA流中所有操作都结束后才返回控制权给主机（CPU）。

详细代码如下所示：

#include <stdio.h>
#include <iostream>
#include <cuda.h>
#include <cuda_runtime.h>
#include <cuda_runtime_api.h>
#include <device_launch_parameters.h>

#define N 50000

__global__ void gpuAdd(int* d_a, int* d_b, int* d_c)
{
   
	int tid = threadIdx.x + blockIdx.x * blockDim.x;
	while (tid < N)
	{
   
		d_c[tid] = d_a[tid