cuda——向量内积

/*求两个向量的内积(点积)。两个向量由数组a和数组b给出*/
#include <stdio.h>
#include <string.h>
#define N 100
#define M 128//指定的每个线程块的线程数量
int a[N],b[N],c[N];
__global__ void dot(int* a,int* b,int* c){
	int tid = threadIdx.x + blockIdx.x*blockDim.x;//注意M和blockDim没有区别,blockDim就是<<<>>>中传入的第二个参数
	__shared__ int cache[M];
	int i,index = threadIdx.x,temp=0;
	while(tid < N){
		temp += a[tid]*b[tid];
		tid += blockDim.x*gridDim.x;
	}
	cache[index] = temp;
	__syncthreads();
	//以下步骤要求M必须是2的指数
	i = blockDim.x/2;
	while(i){
		if(index<i)
			cache[index] += cache[index + i];
		__syncthreads();
		i/=2;
	}
	if(index == 0)
		c[blockIdx.x] = cache[0];
} 
int main(){
	int i,block_num,res = 0;
	int *d_a,*d_b,*d_c;
	for(i = 0;i<N;i++){
		a[i] = 1;
		b[i] = i;
	}
	cudaMalloc((void**)&d_a,N*sizeof(int));
	cudaMalloc((void**)&d_b,N*sizeof(int));
	cudaMalloc((void**)&d_c,N*sizeof(int));
	cudaMemcpy(d_a,a,N*sizeof(int),cudaMemcpyHostToDevice);
	cudaMemcpy(d_b,b,N*sizeof(int),cudaMemcpyHostToDevice);
	block_num = N/M+(N%M==0?0:1);
	dot<<<block_num,M>>>(d_a,d_b,d_c);
	cudaMemcpy(c,d_c,N*sizeof(int),cudaMemcpyDeviceToHost);
	for(i = 0;i<block_num;i++)
		res += c[i];
	printf("%d\n",res);
	cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c);
}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值