使用cuda C完成矩阵相乘算法详解

本文详细介绍了如何使用CUDA C在GPU上实现矩阵相乘算法,包括CPU实现、GPU实现的三个步骤,以及针对矩阵长度限制和全局内存访问的优化策略。通过共享内存和线程块的合理利用,显著提升了计算性能。
摘要由CSDN通过智能技术生成

写在前面:

使用cuda C完成矩阵相乘算法详解


矩阵相乘大家应该都不陌生。

设有两个矩阵M和N,假设M和N都是方阵,维度均为width × width

在这里插入图片描述
如果M和N均为1000 × 1000的矩阵,总共要进行1000000次点乘。其中,每次点乘有1000次乘法和1000次加法。

Matirx Multiply:CPU实现


先来看看使用普通的c代码在CPU端如何实现

void MatrixMulOnHost(float* M,float* N,float* P,int width)
{
   
    for(int i=0;i<width;++i)
        for(int j=0;i<width;j++)
        {
   
            //sum对应每一次点乘(M的某一行×N的某一列)的结果
            float sum = 0;
            for(int k=0;k<width;k++)
            {
   
                float a = M[i*width+k];
                float b = N[k*width+j];
                sum+=a*b;
            }
            P[i*width+j]=sum;//乘累加的结果放到对应位置上
        }
}

可以看到循环计算结果P矩阵里的每一个元素。计算过程非常清晰。

从这里可以看到,这个计算存在非常大的并行性,即结果矩阵P里的每一个元素结果的计算与P中其他元素是不相关的,没有依赖性。

所以我们可以在GPU端上实现矩阵相乘。

Matirx Multiply:GPU实现


可以看到总共有3步:

  1. 管理内存(在GPU上分配空间,将CPU端数据拷贝到GPU端)
  2. GPU上并行处理(启动kernel函数)
  3. 将结果拷贝回到CPU端

第1步:在算法框架中添加 CUDA memory transfers

第2步:CUDA C编程实现kernel

可以看到这里有2个问题

  1. 使用线程的索引代替了双重循环,并行去做就可以
  2. 不需要锁或同步,如果数据之间有依赖,存在同步问题,但这里每一个结果矩阵的元素是独立的,与别的元素无关,所以不需要锁存。

第3步 CUDA C编程调用kernel

源代码

#include <stdio.h>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>
#include <stdlib.h>

#define WIDTH 16

__global__ void MatrixMulKernel(float* Md, float* Nd, float* Pd, int width)
{
   
	int tx = threadIdx.x;
	int ty = threadIdx.y;

	float Pvalue = 0;

	for (int k = 0; k<width; k++)
	{
   
		float Mdelement = Md[ty*width + k];
		float Ndelement = Nd[k*width + tx];
		Pvalue += Mdelement * Ndelement;
	}
	Pd[ty*width + tx] = Pvalue;
}

int main(void)
{
   
	float M[16][16], N[16][16], P[16][16];
	int Width = 16;
	int NUM = 192;
	//初始化示例数据
	for (
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值