CUDA 数组点乘

欢迎访问小站,阅读原文 http://www.yandong.org/archives/755

Question 1: Dot product

基础函数

基本思路:并行计算乘法,串行将每个BLOCK中的所有线程的结果在thread=0线程中汇总,

 

__global__ void dot( TYPE *a, TYPE *b, TYPE *c)

{

    __shared__ TYPE temp[threadsPerBlock];

    int index = threadIdx.x + blockIdx.x * blockDim.x;

    temp[threadIdx.x] = a[index] * b[index];

 

    __syncthreads();

    if( 0 == threadIdx.x ) {

         for( int i= 0; i< threadsPerBlock; i++ )

         {

             c[blockIdx.x] += temp[i];

         }

    }

}

 

 

改进树形加法

基本思路:并行乘法,并行加法。每个BLOCK中的数据汇总也可以使用并行计算,采用树形加法。

/*并行乘法,并行加法*/

__global__ void dot3( TYPE *a, TYPE *b, TYPE *c)

{

    __shared__ TYPE temp[threadsPerBlock];

    int index = threadIdx.x + blockIdx.x * blockDim.x;

    int offset=1, mask=1;

    temp[threadIdx.x] = a[index] * b[index];

 

     __syncthreads();/*树形加法*/

    while(offset < threadsPerBlock) {

        if((threadIdx.x & mask) == 0) {

            temp[threadIdx.x] += temp[threadIdx.x + offset];

        }

        offset += offset;

        mask = offset + mask;

        __syncthreads();

}

 

    if(threadIdx.x == 0) {

        c[blockIdx.x] = temp[0];  

    }

}

 

 

改进浮点数精度

基本思路:浮点运算的精度问题,采用Kahan's Summation Formula 来提高精确度。 并将main函数中的cfloat类型改为double类型。

/*并行乘法,并行加法, 浮点数精度优化Kahan's Summation Formula*/

__global__ void dot( TYPE *a, TYPE *b, TYPE *c)

{

    __shared__ TYPE temp[threadsPerBlock];

    int index = threadIdx.x + blockIdx.x * blockDim.x;

    int offset=1, mask=1;

    TYPE y=0,r;

    /*Kahan's Summation Formula*/

    temp[threadIdx.x] =0;

    y -= a[index] * b[index];

    r=temp[threadIdx.x]-y;

    y=(r-temp[threadIdx.x])+y;

    temp[threadIdx.x] =r;

 

     __syncthreads();

    while(offset < threadsPerBlock) {

        if((threadIdx.x & mask) == 0) {

            temp[threadIdx.x] += temp[threadIdx.x + offset];

        }

        offset += offset;

        mask = offset + mask;

        __syncthreads();

    }

 

    if(threadIdx.x == 0) {

        c[blockIdx.x] = temp[0];  

    }

}

 

改进3 Bank conflict

基本思路:改进2的树形加法存在Bank conflict的问题。

 

/*并行乘法,并行加法, 浮点数精度优化Kahan's Summation Formula  解决bank conflict*/

__global__ void dot3( TYPE *a, TYPE *b, TYPE *c)

{

    __shared__ TYPE temp[threadsPerBlock];

    int index = threadIdx.x + blockIdx.x * blockDim.x;

    int offset=1;

    TYPE y=0,r;

    /*Kahan's Summation Formula*/

    temp[threadIdx.x] =0;

    y -= a[index] * b[index];

    r=temp[threadIdx.x]-y;

    y=(r-temp[threadIdx.x])+y;

    temp[threadIdx.x] =r;

 

     __syncthreads();

    offset = threadsPerBlock / 2;

    while(offset > 0) {

        if(threadIdx.x  < offset) {

           temp[threadIdx.x] += temp[threadIdx.x + offset];

        }

        offset >>= 1;

        __syncthreads();

    }

 

    if(threadIdx.x == 0) {

        c[blockIdx.x] = temp[0];  

    }

}

改进循环展开

基本思路:将树形加法进行循环展开

 

/*并行乘法,并行加法, 浮点数精度优化Kahan's Summation Formula  解决bank conflict 循环展开*/

__global__ void dot4( TYPE *a, TYPE *b, TYPE *c)

{

    __shared__ TYPE temp[threadsPerBlock];

    int index = threadIdx.x + blockIdx.x * blockDim.x;

    int offset=1;

    TYPE y=0,r;

    /*Kahan's Summation Formula*/

    temp[threadIdx.x] =0;

    y -= a[index] * b[index];

    r=temp[threadIdx.x]-y;

    y=(r-temp[threadIdx.x])+y;

    temp[threadIdx.x] =r;

 

     __syncthreads();

    if(threadIdx.x < 256) {   temp[threadIdx.x] += temp[threadIdx.x +  256]; }

    __syncthreads();

    if(threadIdx.x < 128) {   temp[threadIdx.x] += temp[threadIdx.x +  128]; }

    __syncthreads();

    if(threadIdx.x < 64) {   temp[threadIdx.x] += temp[threadIdx.x +  64]; }

    __syncthreads();

    if(threadIdx.x < 32) {   temp[threadIdx.x] += temp[threadIdx.x + 32]; }

    __syncthreads();

    if(threadIdx.x < 16) {   temp[threadIdx.x] += temp[threadIdx.x +  16]; }

    __syncthreads();

    if(threadIdx.x < 8) {   temp[threadIdx.x] += temp[threadIdx.x +  8]; }

    __syncthreads();

    if(threadIdx.x < 4) {   temp[threadIdx.x] += temp[threadIdx.x + 4]; }

    __syncthreads();

    if(threadIdx.x < 2) {   temp[threadIdx.x] += temp[threadIdx.x +  2]; }

    __syncthreads();

    if(threadIdx.x < 1) {   temp[threadIdx.x] += temp[threadIdx.x +  1]; }

    __syncthreads();

 

    if(threadIdx.x == 0) {

        c[blockIdx.x] = temp[0];  

    }

}

改进5 Ideal Thread

基本思路:解决空闲线程问题,即<32不再展开

/*并行乘法,并行加法, 浮点数精度优化Kahan's Summation Formula  解决bank conflict 循环展开, 空闲线程*/

__global__ void dot5(TYPE *a, TYPE *b, TYPE *c)

{

    __shared__ TYPE temp[threadsPerBlock];

    int index = threadIdx.x + blockIdx.x * blockDim.x;

    int offset=1;

    TYPE y=0,r;

    /*Kahan's Summation Formula*/

    temp[threadIdx.x] =0;

    y -= a[index] * b[index];

    r=temp[threadIdx.x]-y;

    y=(r-temp[threadIdx.x])+y;

    temp[threadIdx.x] =r;

 

     __syncthreads();

    if(threadIdx.x < 256) {   temp[threadIdx.x] += temp[threadIdx.x +  256]; }

    __syncthreads();

    if(threadIdx.x < 128) {   temp[threadIdx.x] += temp[threadIdx.x +  128]; }

    __syncthreads();

    if(threadIdx.x < 64) {   temp[threadIdx.x] += temp[threadIdx.x +  64]; }

    __syncthreads();

    if (threadIdx.x < 32)

    {

         temp[threadIdx.x] += temp[threadIdx.x + 32];

         temp[threadIdx.x] += temp[threadIdx.x + 16];

         temp[threadIdx.x] += temp[threadIdx.x +8];

         temp[threadIdx.x] += temp[threadIdx.x +4];

         temp[threadIdx.x] += temp[threadIdx.x + 2];

         temp[threadIdx.x] += temp[threadIdx.x + 1];

    }

     __syncthreads();

 

    if(threadIdx.x == 0) {

        c[blockIdx.x] = temp[0];  

    }

}

 

性能总结

改进

性能us

dot0

1699738.016

Dot1

114682.144

Dot2

120819.072

Dot3

71126.24

Dot4

57975.072

Dot5

49489.856

 

 


 

 

 

 

 

 

 

 

 


转载于:https://my.oschina.net/toyandong/blog/228989

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值