C++学习|CUDA内存管理代码实例

魔法自动机

已于 2023-10-20 10:36:13 修改

阅读量661

点赞数 1

分类专栏： C++学习 GPU编程文章标签： CUDA C++ GPU

于 2023-08-30 15:47:45 首次发布

本文链接：https://blog.csdn.net/qq_40306845/article/details/132584172

版权

C++学习同时被 2 个专栏收录

28 篇文章 7 订阅

订阅专栏

GPU编程

6 篇文章 0 订阅

订阅专栏

前言：之前介绍了CUDA入门知识，对CUDA编程有了一个基本了解，但是实际写起来还是遇到很多问题，例如cpp文件该怎么调用cuda文件、cpu和gpu之间内存数据怎么交换、如何编写.cu和.cuh文件之类的。本篇文章将会以一个实现向量相加的代码实例，来搞懂前面的这些问题。

项目创建和配置

如果cuda还没有安装，可以参考我之前的博客“CUDA安装和配置”。

我安装的是CUDA 11.4版本，配置中所有给出的地址是CUDA安装的默认地址。如果你安装的不是默认地址，或者版本不同，请根据自己的需要去更改。

创建了一个C++控制台程序，也可以根据自己需求创建不同的C++项目。
配置CUDA的lib。
项目-属性-连接器-常规-附加库目录，补上cuda.lib所在的地址“C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.4\lib\x64”。
项目-属性-连接器-输入，补上cuda.lib。
配置CUDA的include。
项目-属性-VC++目录-包含目录，补上CUDA的include文件地址“C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.4\include”。
配置项目依赖项。
项目-生成依赖项-生成自定义-勾选CUDA选项。

新建.cu和.cuh文件

添加->新建项，选择新建cuh和cu文件。在这里插入图片描述
头文件中新建cuda.cuh，源文件中新建cuda.cu。

编写.cu文件

先理解一下GPU内存管理的流程。
首先，CPU和GPU之间的数据是不共享的，所以要让GPU处理数据，除了要在GPU中分配内存，还需要把CPU的数据先传递到GPU。GPU数据处理完之后，需要把处理完的数据先传递回CPU，最后释放GPU分配的内存。
所以GPU内存管理的重要的功能就有四个：cudaMalloc（内存分配）、cudaMemcpy（数据传递）、cudaMemset（数据初始化）以及cudaFree（内存释放）。

目标是写一个GPU多线程运行的向量加法，一个线程负责一个向量维度的数相加。

#include"cuda.cuh"

#include <cuda_runtime.h>
#include<device_launch_parameters.h>
#include <stdio.h>

// 核函数：单独计算向量某一维的加法
__global__ void vecAdd(int *A,int *B,int *C) {
    int tid=threadIdx.x;// 获取线程所在一维block的id，作为向量维度的索引
    C[tid]=A[tid] + B[tid];
}
// 供CPP调用函数：GPU内存管理，调用核函数实现向量相加
void vecAddFun(int n,int* inA, int* inB,int *outC){
    // n是向量维度
    // A和B是两个输入向量，C是向量相加的结果
    int* A, *B,*C;
    // GPU开辟空间
    cudaMalloc((void**)&A,n*sizeof(int));
    cudaMalloc((void**)&B, n * sizeof(int));
    cudaMalloc((void**)&C, n * sizeof(int));
    // 把CPU数据拷贝到GPU
    cudaMemcpy(A,inA, n * sizeof(int),cudaMemcpyHostToDevice);
    cudaMemcpy(B, inB, n * sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(C, outC, n * sizeof(int), cudaMemcpyHostToDevice);
    // GPU运行核函数
    vecAdd<<< 1, n >>>(A, B, C);// n维向量，所以开1个block和n个线程
    // 让CPU等GPU运行完
    cudaDeviceSynchronize();
    // 把GPU数据拷贝回CPU
    cudaMemcpy(outC, C, n * sizeof(int), cudaMemcpyDeviceToHost);
    // 释放GPU内存
    cudaFree(A);
    cudaFree(B);
    cudaFree(C);
    return;
}

编写.cuh文件

这个文件主要目的是为了方便cpp文件调用.cu文件的功能。

// ifndef的作用是为了防止头文件的重复包含和编译
#ifndef CUDA_H
#define CUDA_H

void vecAddFun(int n, int* inA, int* inB, int* outC);

#endif

编写cpp文件

cpp文件里面写了主函数，调用cuda文件。
效果，输入向量维度n，然后输入两个向量，最后会输出两个向量相加的结果。

#include <iostream>
#include "cuda.cuh"// 调用cuda头文件
using namespace std;

int main()
{
	// n是向量的维度
	// A和B是两个输入向量，C是向量相加的结果
	int* A, * B, * C;
	int n;
	cin >> n;
	A = (int*)malloc(n * sizeof(int));
	B = (int*)malloc(n * sizeof(int));
	C = (int*)malloc(n * sizeof(int));
	for (int i = 0; i < n; i++) {
		cin >> A[i];
	}
	for (int i = 0; i < n; i++) {
		cin >> B[i];
	}
	vecAddFun(n, A, B, C);//调用cuda函数，进行向量相加
	for (int i = 0; i < n; i++) {
		cout << C[i] << " ";
	}
	cout << endl;
	return 0;
}