【模型推理学习笔记】cuda基础操作 -向量相加和元素相乘

最新推荐文章于 2024-06-19 20:41:10 发布

Go 鹏ya

最新推荐文章于 2024-06-19 20:41:10 发布

阅读量46

点赞数

分类专栏： cuda 推理优化并行计算文章标签：学习笔记

本文链接：https://blog.csdn.net/qq_42961603/article/details/133845092

版权

推理优化同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

cuda

3 篇文章 0 订阅

订阅专栏

并行计算

2 篇文章 0 订阅

订阅专栏

https://mp.weixin.qq.com/s/Izsg-mLZIfjyNtWlDgaWnQ

两个向量相加（1）

// Kernel definition
__global__ void VecAdd(float* A, float* B, float* C)
{
    int i = threadIdx.x;
    C[i] = A[i] + B[i];
}

int main()
{
    ...
    // Kernel invocation with N threads
    VecAdd<<<1, N>>>(A, B, C);
    ...
}

两个向量相加（2）


// Kernel definition
__global__ void MatAdd(float A[N][N], float B[N][N],
float C[N][N])
{
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    int j = blockIdx.y * blockDim.y + threadIdx.y;
    if (i < N && j < N)
        C[i][j] = A[i][j] + B[i][j];
}

int main()
{
    ...
    // Kernel invocation
    dim3 threadsPerBlock(16, 16);
    dim3 numBlocks(N / threadsPerBlock.x, N / threadsPerBlock.y);
    MatAdd<<<numBlocks, threadsPerBlock>>>(A, B, C);
    ...
}

两个向量元素乘


// Kernel definition
__global__ void MatAdd(float A[N][N], float B[N][N],
                       float C[N][N])
{
    int i = threadIdx.x;
    int j = threadIdx.y;
    C[i][j] = A[i][j] + B[i][j];
}

int main()
{
    ...
    // Kernel invocation with one block of N * N * 1 threads
    int numBlocks = 1;
    dim3 threadsPerBlock(N, N);
    MatAdd<<<numBlocks, threadsPerBlock>>>(A, B, C);
    ...
}