[CUDA]共享内存


  • 博客分类

    于GPU上启动的每个线程块上的共享内存,CUDA C编译器都会创建该变量的一个副本。同一线程块的每个线程都共享这块内存,但是线程无法看到也不能修改其他线程块中的共享内存。这样做可以使得一个线程块中的多个线程能够在计算上通信和协作。

    共享内存缓冲区驻留在物理GUP上,因此访问共享内存的延迟远远低于访问普通缓冲区的延迟。

    共享内存的声明方式是在前面加上  __shared__

伦理片 http://www.dotdy.com/


    为了保持进程同步,可以使用cuda的函数__syncthreads();。这个函数的作用是为了确保线程块的每个线程都执行完__syncthreads();之前的语句后,才会执行下面的语句。

 

    出于易于理解,写了一个简单的程序,大致功能就是对于一列数,每四个数字进行逆转位置

 1 2 3 4 5 6 7 8  ----》 4 3 2 1 8 7 6 5

Cpp代码   收藏代码
  1. #include<cuda_runtime.h>  
  2. #include<windows.h>  
  3. #include<iostream>  
  4. using namespace std;  
  5. const int nMax = 50;  
  6. __global__ void exchangeKernel(float *aaa)  
  7. {  
  8.     int offset = threadIdx.x + blockDim.x * blockIdx.x;  
  9.     int x = threadIdx.x;  
  10.     __shared__ float tmp[4];  
  11.     int a = offset / 4;  
  12.     a = (a + 1) * 4 - (offset - a * 4) - 1; ///a为同一个block对应位置的offset  
  13.     tmp[x] = aaa[a];  
  14.   
  15.     __syncthreads();  
  16.     aaa[offset] = tmp[x];  
  17. }  
  18.   
  19. int main(){  
  20.     float a[nMax];  
  21.     float *devA;  
  22.     for (int i = 0; i < nMax; i++){  
  23.         a[i] = i;  
  24.     }  
  25.     cudaMalloc((void**)&devA, nMax*sizeof(float));  
  26.   
  27.     cudaMemcpy(devA, a, nMax*sizeof(float), cudaMemcpyHostToDevice);  
  28.   
  29.     exchangeKernel << <10, 4 >> >(devA );  
  30.   
  31.     cudaMemcpy(a, devA, nMax*sizeof(float), cudaMemcpyDeviceToHost);  
  32.   
  33.   
  34.     for (int i = 0; i < 40; i++){  
  35.         cout << a[i] << " ";  
  36.     }cout << endl;  
  37.     cudaFree(devA);  
  38.     cin >> a[0];  
  39.     return 0;  
  40. }  

 影音先锋电影 http://www.iskdy.com/



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CUDA共享内存是一种位于GPU上的高速存,可以用于在同一个线程块内的线程之间共享数据。使用共内存可以显著提内存访问的效,并且减少对全局内存访问次数。 以下使用CUDA共享内存的一般步: 1. 声明共内存:在GPU核函数中,可以使用`__shared__`关键字来声明共享内存共享内存的大小需要在编译时确定,并且是所有线程块中的线程共享的。 ```cuda __shared__ float sharedData[SIZE]; ``` 2. 将数据从全局内存复制到共享内存:在GPU核函数中,使用线程块中的线程来将数据从全局内存复制到共享内存中。可以使用线程块索引和线程索引来确定数据的位置。 ```cuda int tid = threadIdx.x; int blockId = blockIdx.x; int index = blockId * blockDim.x + tid; sharedData[tid] = globalData[index]; ``` 3. 同步线程块:在将数据复制到共享内存后,需要使用`__syncthreads()`函数来同步线程块中的线程。这样可以确保所有线程都已经将数据复制到共享内存中。 ```cuda __syncthreads(); ``` 4. 使用共享内存:一旦所有线程都已经将数据复制到共享内存中,可以使用共享内存进行计算。由于共享内存位于GPU的高速缓存中,所以访问速度较快。 ```cuda sharedData[tid] += 1.0f; ``` 5. 将数据从共享内存复制回全局内存:在计算完成后,可以使用线程块中的线程将数据从共享内存复制回全局内存。 ```cuda globalData[index] = sharedData[tid]; ``` 需要注意的是,共享内存的大小是有限的,不同的GPU架构及型号都有不同的限制。因此,在使用共享内存时,需要确保不超过设备的限制,并且合理地利用共享内存,以提高性能。此外,需要注意线程同步的位置和使用方法,以避免数据竞争和错误的结果。 以上是使用CUDA共享内存的基本步骤,具体的实现方式会根据具体问题而有所不同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值