目录
1.1 Host端(cpu端)可以从device(gpu端)往返传输数据
1. cuda内存传输
1.1 Host端(cpu端)可以从device(gpu端)往返传输数据
(1)这些数据在gpu上存放的位置包括:
- Global memory 全局存储器;
- Constant memory 常量存储器。
(2)具体操作函数:
- cudaMalloc() 在设备端分配global memory.
- cudaFree() 释放存储空间。
eg,在gpu申请空间,并进行数据操作:
float *device
int size = width * width * sizeof(float);
cudaMalloc((void**)&device, size);
... // 只能在设备端操作,即在gpu上操作
cudaFree(device);
(3)主机和设备间的内存传输的全部形式包括:
- Host to host
- Host to device
- Device to host
- Device to device
cudaMemcpy(device_p, host_p, size, cudaMemcpyHostToDevice);
cudaMemcpy(host_p, device_p, size, cudaMemcpyDeviceToHost);
2. 矩阵相乘在cpu和gpu上对比
矩阵a所有行,依次和矩阵b所有列相乘求和。
(1)cpu是三层循环
第一层循环控制a矩阵的哪一行,第二层控制b矩阵哪一列,第三层控制逐个元素相乘求和。
(2)gpu上三步走:
- 在gpu上分配空间;
- 在gpu进行并行处理;
- 把处理结果拷贝回cpu。
// 伪代码
void MatrixMulOnDevice(float* M, float* N, float* p, int Width)
{
int size = Width * Width * sizeof(float);
// 1, 在gpu上分配输入 load M and N to device memory
cudaMalloc(Md, size); // 在gpu上分配空间
cudaMemcpy(Md, M, size, cudaMemcpyHostToDevice); // 矩阵M拷贝到gpu上
cudaMalloc(Nd, size); // 在gpu上分配空间
cudaMemcpy(Nd, N, size, cudaMemcpyHostToDevice); // 矩阵M拷贝到gpu上
// 在gpu上分配输出内存
cudaMalloc(Pd, size);
// 2, 核函数操作,并行处理
MatrixMulKernel(Md, Nd, Pd, Width);
// 3, 拷贝回结果
cudaMemcpy(P, Pd, size, cudaMemcpyDeviceToHost);
cudaFree(Md); cudaFree(Nd); cudaFree(Pd); // 释放显存占用。
}
cuda核函数
// 伪代码
__global__ void MatrixMulKernel(float* Md, float* Nd, float* Pd, int Width)
{
// 2D线程矩阵,即第i行j列线程,控制矩阵Md中第i行乘以矩阵Nd中第j列。
int tx = threadIdx.x; // 获取当前线程所在的列
int ty = threadIdx.y; // 获取当前线程所在的行
// 每个kernel线程计算一个输出
float Pvalue = 0; // 注意,这里是一个值,也就是结果矩阵中的一个值
for (int k = 0; k < Width; ++k)
{ // 前面有ty行结果,每行width个结果,所以前面有ty*width
float Md_element = Md[ty * Md.width + k];
}
}
待续。。。