cuda教程听课笔记

Mr.Q

已于 2022-10-24 16:53:35 修改

阅读量1.1k

点赞数 1

分类专栏： cuda 文章标签： 1024程序员节

于 2022-10-24 16:52:29 首次发布

本文链接：https://blog.csdn.net/jizhidexiaoming/article/details/125100410

版权

cuda 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

1. cuda内存传输

1.1 Host端（cpu端）可以从device（gpu端）往返传输数据

2. 矩阵相乘在cpu和gpu上对比

1. cuda内存传输

1.1 Host端（cpu端）可以从device（gpu端）往返传输数据

（1）这些数据在gpu上存放的位置包括：

Global memory 全局存储器；
Constant memory 常量存储器。

（2）具体操作函数：

cudaMalloc() 在设备端分配global memory.
cudaFree() 释放存储空间。

eg，在gpu申请空间，并进行数据操作:

float *device
int size = width * width * sizeof(float);
cudaMalloc((void**)&device, size);
...  // 只能在设备端操作，即在gpu上操作
cudaFree(device);

（3）主机和设备间的内存传输的全部形式包括：

Host to host
Host to device
Device to host
Device to device

cudaMemcpy(device_p, host_p, size, cudaMemcpyHostToDevice);

cudaMemcpy(host_p, device_p, size, cudaMemcpyDeviceToHost);

2. 矩阵相乘在cpu和gpu上对比

矩阵a所有行，依次和矩阵b所有列相乘求和。

（1）cpu是三层循环

第一层循环控制a矩阵的哪一行，第二层控制b矩阵哪一列，第三层控制逐个元素相乘求和。

（2）gpu上三步走：

在gpu上分配空间；
在gpu进行并行处理；
把处理结果拷贝回cpu。

// 伪代码
void MatrixMulOnDevice(float* M, float* N, float* p, int Width)
{
    int size = Width * Width * sizeof(float);

    // 1, 在gpu上分配输入 load M and N to device memory
    cudaMalloc(Md, size);  // 在gpu上分配空间
    cudaMemcpy(Md, M, size, cudaMemcpyHostToDevice);  // 矩阵M拷贝到gpu上
    cudaMalloc(Nd, size);  // 在gpu上分配空间
    cudaMemcpy(Nd, N, size, cudaMemcpyHostToDevice);  // 矩阵M拷贝到gpu上
    
    // 在gpu上分配输出内存
    cudaMalloc(Pd, size);

    // 2, 核函数操作，并行处理
    MatrixMulKernel(Md, Nd, Pd, Width);

    // 3, 拷贝回结果
    cudaMemcpy(P, Pd, size, cudaMemcpyDeviceToHost);
    cudaFree(Md); cudaFree(Nd); cudaFree(Pd);  // 释放显存占用。
}

cuda核函数

// 伪代码
__global__ void MatrixMulKernel(float* Md, float* Nd, float* Pd, int Width)

{
    // 2D线程矩阵，即第i行j列线程，控制矩阵Md中第i行乘以矩阵Nd中第j列。
    int tx = threadIdx.x;  // 获取当前线程所在的列
    int ty = threadIdx.y;  // 获取当前线程所在的行

    // 每个kernel线程计算一个输出
    float Pvalue = 0;  // 注意，这里是一个值，也就是结果矩阵中的一个值
    
    for (int k = 0; k < Width; ++k)
    {   // 前面有ty行结果，每行width个结果，所以前面有ty*width
        float Md_element = Md[ty * Md.width + k];  
    }

}

待续。。。