CUDA多个流的使用

CUDA中使用多个流并行执行数据复制和核函数运算可以进一步提高计算性能。以下程序使用2个流执行运算:


#include "cuda_runtime.h"    
#include <iostream>  
#include <stdio.h>    
#include <math.h>    

#define N (1024*1024)    
#define FULL_DATA_SIZE N*20    

__global__ void kernel(int* a, int *b, int*c)
{
	int threadID = blockIdx.x * blockDim.x + threadIdx.x;

	if (threadID < N)
	{
		c[threadID] = (a[threadID] + b[threadID]) / 2;
	}
}

int main()
{
	//获取设备属性  
	cudaDeviceProp prop;
	int deviceID;
	cudaGetDevice(&deviceID);
	cudaGetDeviceProperties(&prop, deviceID);

	//检查设备是否支持重叠功能  
	if (!prop.deviceOverlap)
	{
		printf("No device will handle overlaps. so no speed up from stream.\n");
		return 0;
	}

	//启动计时器  
	cudaEvent_t start, stop;
	float elapsedTime;
	cudaEventCreate(&start);
	cudaEventCreate(&stop);
	cudaEventRecord(start, 0);

	//创建两个CUDA流  
	cudaStream_t stream, stream1;
	cudaStreamCreate(&stream);
	cudaStreamCreate(&stream1);

	int *host_a, *host_b, *host_c;
	int *dev_a, *dev_b, *dev_c;
	int *dev_a1, *dev_b1, *dev_c1;

	//在GPU上分配内存  
	cudaMalloc((void**)&dev_a, N * sizeof(int));
	cudaMalloc((void**)&dev_b, N * sizeof(int));
	cudaMalloc((void**)&dev_c, N * sizeof(int));

	cudaMalloc((void**)&dev_a1, N * sizeof(int));
	cudaMalloc((void**)&dev_b1, N * sizeof(int));
	cudaMalloc((void**)&dev_c1, N * sizeof(int));

	//在CPU上分配页锁定内存  
	cudaHostAlloc((void**)&host_a, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);
	cudaHostAlloc((void**)&host_b, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);
	cudaHostAlloc((void**)&host_c, FULL_DATA_SIZE * sizeof(int), cudaHostAllocDefault);

	//主机上的内存赋值  
	for (int i = 0; i < FULL_DATA_SIZE; i++)
	{
		host_a[i] = i;
		host_b[i] = FULL_DATA_SIZE - i;
	}

	for (int i = 0; i < FULL_DATA_SIZE; i += 2 * N)
	{
		cudaMemcpyAsync(dev_a, host_a + i, N * sizeof(int), cudaMemcpyHostToDevice, stream);
		cudaMemcpyAsync(dev_b, host_b + i, N * sizeof(int), cudaMemcpyHostToDevice, stream);

		cudaMemcpyAsync(dev_a1, host_a + i + N, N * sizeof(int), cudaMemcpyHostToDevice, stream1);
		cudaMemcpyAsync(dev_b1, host_b + i + N, N * sizeof(int), cudaMemcpyHostToDevice, stream1);

		kernel << <N / 1024, 1024, 0, stream >> > (dev_a, dev_b, dev_c);
		kernel << <N / 1024, 1024, 0, stream1 >> > (dev_a, dev_b, dev_c1);

		cudaMemcpyAsync(host_c + i, dev_c, N * sizeof(int), cudaMemcpyDeviceToHost, stream);
		cudaMemcpyAsync(host_c + i + N, dev_c1, N * sizeof(int), cudaMemcpyDeviceToHost, stream1);
	}

	// 等待Stream流执行完成
	cudaStreamSynchronize(stream);
	cudaStreamSynchronize(stream1);

	cudaEventRecord(stop, 0);
	cudaEventSynchronize(stop);
	cudaEventElapsedTime(&elapsedTime, start, stop);

	std::cout << "消耗时间: " << elapsedTime << std::endl;

	//输出前10个结果  
	for (int i = 0; i < 10; i++)
	{
		std::cout << host_c[i] << std::endl;
	}

	getchar();

	// free stream and mem    
	cudaFreeHost(host_a);
	cudaFreeHost(host_b);
	cudaFreeHost(host_c);

	cudaFree(dev_a);
	cudaFree(dev_b);
	cudaFree(dev_c);

	cudaFree(dev_a1);
	cudaFree(dev_b1);
	cudaFree(dev_c1);

	cudaStreamDestroy(stream);
	cudaStreamDestroy(stream1);
	return 0;
}


使用2个流,执行时间16ms,基本上是使用一个流消耗时间的二分之一。


  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
以下是一个简单的Python CUDA多流传输样例: ```python import numpy as np import pycuda.driver as cuda import pycuda.gpuarray as gpuarray import pycuda.autoinit # 定义主机数据 h_a = np.random.randn(10000).astype(np.float32) h_b = np.random.randn(10000).astype(np.float32) h_c_cpu = np.zeros_like(h_a) # 定义设备数据 d_a = gpuarray.to_gpu(h_a) d_b = gpuarray.to_gpu(h_b) d_c = gpuarray.zeros_like(d_a) # 定义 streams = [] for i in range(4): streams.append(cuda.Stream()) # 多流计算 for i in range(4): start = i * 2500 end = start + 2500 d_a_part = d_a[start:end] d_b_part = d_b[start:end] d_c_part = d_c[start:end] d_c_part += d_a_part * d_b_part d_c_part.get(h_c_cpu[start:end], stream=streams[i]) # 等待所有计算完成 for stream in streams: stream.synchronize() # 验证结果 h_c_gpu = d_c.get() assert np.allclose(h_c_cpu, h_c_gpu) print("Results verified!") ``` 该样例将主机端的两个数组(h_a和h_b)传输到设备端的两个数组(d_a和d_b),并使用四个计算它们的点积(d_c = d_a * d_b)。 要实现多流传输,我们首先需要创建几个,并使用的方法传输不同部分的数据。在这个例子中,我们将数据分成四个等大小的部分,并使用四个分别计算它们的点积。在每个上,我们使用GPUArray的切片来获取对应的部分数组,并在该上计算点积。然后,我们使用get方法将计算结果传输回主机端,同时指定使用。 最后,我们需要等待所有完成计算,并检查计算结果是否正确。 这个样例只是一个简单的示例,实际上,使用多流传输可以更好地利用GPU的并行性,提高计算效率。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值