CUDA编程之环境配置

最新推荐文章于 2024-08-15 21:26:06 发布

mumusan2016

最新推荐文章于 2024-08-15 21:26:06 发布

阅读量7.8k

点赞数 2

分类专栏： CUDA 文章标签： CUDA vs2015 环境配置

本文链接：https://blog.csdn.net/mumusan2016/article/details/53024596

版权

CUDA 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

VS2015+CUDA8.0环境配置

Anyway，在这里记录下正确的配置方式：

1、首先，上官网下载对应vs版本的CUDA toolkit：

https://developer.nvidia.com/cuda-toolkit-50-archive

（记住vs2010对应CUDA5.0,vs2013对应CUDA7.5，vs2015对应CUDA8.0）

2、接着，直接安装，记得在安装过程中如果你不想换你原有的显卡驱动的话，就选择自定义不安装driver；否则如果你直接选“精简”又不安装驱动，则CUDA安装无法成功。

3、安装完成之后，进入C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0 之后可以看到有好几个文件夹：bin、lib 、include等等，这就表明安装成功了

4、接下来，看看如何创建一个利用cuda编程的项目，打开vs创建项目时，你可以看到有了新的项目类型：

但是我们这里教你如何在一个空项目中编译cu文件，所以我们还是创建一个vc++的空项目，接着创建一个新的cpp文件和cu文件

test.cpp代码如下：

#include <time.h>
#include <stdlib.h>
#include <stdio.h>

//这里不要忘了加引用声明
extern "C" void MatrixMultiplication_CUDA(const float* M, const float* N, float* P, int Width);

//构造函数...
//析构函数...

// 产生矩阵,矩阵中元素0~1
void matgen(float* a, int Width)
{
    int i, j;
    for (i = 0; i < Width; i++)
    {
        for (j = 0; j < Width; j++)
        {
            a[i * Width + j] = (float)rand() / RAND_MAX + (float)rand() / (RAND_MAX*RAND_MAX);
        }
    }
}

//矩阵乘法(CPU验证)
void MatrixMultiplication(const float* M, const float* N, float* P, int Width)
{
    int i, j, k;
    for (i = 0; i < Width; i++)
    {
        for (j = 0; j < Width; j++)
        {
            float sum = 0;
            for (k = 0; k < Width; k++)
            {
                sum += M[i * Width + k] * N[k * Width + j];
            }
            P[i * Width + j] = sum;
        }
    }
}

double MatrixMul_GPU()
{
    float *M, *N, *Pg;
    int Width = 1024;	//1024×1024矩阵乘法
    M = (float*)malloc(sizeof(float)* Width * Width);
    N = (float*)malloc(sizeof(float)* Width * Width);
    Pg = (float*)malloc(sizeof(float)* Width * Width); //保存GPU计算结果

    srand(0);

    matgen(M, Width);			//产生矩阵M
    matgen(N, Width);			//产生矩阵N

    double timeStart, timeEnd;	//定义时间，求时间差用
    timeStart = clock();
    MatrixMultiplication_CUDA(M, N, Pg, Width);			//GPU上计算
    timeEnd = clock();

    free(M);
    free(N);
    free(Pg);
    return timeEnd - timeStart;
}

double MatrixMul_CPU()
{
    float *M, *N, *Pc;
    int Width = 1024;	//1024×1024矩阵乘法
    M = (float*)malloc(sizeof(float)* Width * Width);
    N = (float*)malloc(sizeof(float)* Width * Width);
    Pc = (float*)malloc(sizeof(float)* Width * Width);	//保存CPU计算结果

    srand(0);

    matgen(M, Width);			//产生矩阵M
    matgen(N, Width);			//产生矩阵N

    double timeStart, timeEnd; //定义时间，求时间差用
    timeStart = clock();
    MatrixMultiplication(M, N, Pc, Width);				//CPU上计算
    timeEnd = clock();

    free(M);
    free(N);
    free(Pc);
    return timeEnd - timeStart;
}

//
int main()
{
    printf("CPU use time %g\n", MatrixMul_CPU());
    printf("GPU use time %g\n", MatrixMul_GPU());
    system("pause");
    return 0;
}

test.cu代码如下：

CUDAtest.cu

#include "cuda_runtime.h"  
#include "device_launch_parameters.h"

#define TILE_WIDTH 16

// 核函数
// __global__ static void MatrixMulKernel(const float* Md,const float* Nd,float* Pd,int Width)
__global__ void MatrixMulKernel(const float* Md, const float* Nd, float* Pd, int Width)
{
    //计算Pd和Md中元素的行索引
    int Row = blockIdx.y * TILE_WIDTH + threadIdx.y; //行
    int Col = blockIdx.x * TILE_WIDTH + threadIdx.x; //列

    float Pvalue = 0.0;
    for (int k = 0; k < Width; k++)
    {
        Pvalue += Md[Row * Width + k] * Nd[k * Width + Col];
    }
    //每个线程负责计算P中的一个元素
    Pd[Row * Width + Col] = Pvalue;
}

// 矩阵乘法(CUDA中)
// 在外部调用，使用extern
extern "C" void MatrixMultiplication_CUDA(const float* M, const float* N, float* P, int Width)
{
    cudaSetDevice(0);  //设置目标GPU 

    float *Md, *Nd, *Pd;
    int size = Width * Width * sizeof(float);//字节长度

    cudaMalloc((void**)&Md, size);
    cudaMalloc((void**)&Nd, size);
    cudaMalloc((void**)&Pd, size);

    //Copies a matrix from the memory* area pointed to by src to the memory area pointed to by dst
    cudaMemcpy(Md, M, size, cudaMemcpyHostToDevice);
    cudaMemcpy(Nd, N, size, cudaMemcpyHostToDevice);

    //
    dim3 dimGrid(Width / TILE_WIDTH, Width / TILE_WIDTH);	//网格的维度
    dim3 dimBlock(TILE_WIDTH, TILE_WIDTH);					//块的维度
    MatrixMulKernel <<< dimGrid, dimBlock >>>(Md, Nd, Pd, Width);

    cudaMemcpy(P, Pd, size, cudaMemcpyDeviceToHost);
    //释放设备上的矩阵
    cudaFree(Md);
    cudaFree(Nd);
    cudaFree(Pd);
}

接下来就是第三方库的链接了，首先呢，你得右击项目，打开项目属性

分别在可执行文件目录下输入：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\bin

在包含目录下输入：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\include

在库目录下输入：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\lib\Win32