[菜鸟每天来段CUDA_C]向量相加的CUDA实现和顺序执行比较

最新推荐文章于 2024-04-17 16:07:23 发布

jonny_super

最新推荐文章于 2024-04-17 16:07:23 发布

阅读量2k

点赞数

分类专栏： CUDA编程文章标签： cuda 向量相加运算时间

本文链接：https://blog.csdn.net/jonny_super/article/details/16811119

版权

CUDA编程专栏收录该内容

18 篇文章 4 订阅

订阅专栏

本文首先利用CUDA实现了两个50000维向量加法的并行运算，然后对两个向量串行相加，对两者的计算时间做了比较。

1. CUDA 向量相加

A、B为随机生成的长度为50000的数组。核函数：

__global__ void vecAdd(const float* A, const float* B, float* C, int N)
{
      int i = blockDim.x * blockIdx.x + threadIdx.x;
      if (i < N)
      {
          C[i] = A[i] + B[i];
      }
}

调用：

vecAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, N);

2. 串行相加

void vecAdd(float* X, float* Y, float* Z, int n)
{
     for (int i=0; i<n; i++)
     {
          Z[i] = X[i] + Y[i];
     }
}

3. 运算时间

CUDA：串行：

由于CUDA中每个block中的线程数目设置为256，每次有256个核函数的拷贝并行执行。

所以起运行时间比串行执行快了100多倍~

jonny_super

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[菜鸟每天来段CUDA_C]向量相加的CUDA实现和顺序执行比较

本文首先利用CUDA实现了两个50000维向量加法的并行运算，然后对两个向量串行相加，对两者的计算时间做了比较。1. CUDA 向量相加A、B为随机生成的长度为50000的数组。核函数：__global__ void vecAdd(const float* A, const float* B, float* C, int N){int i = b
复制链接

扫一扫