基于GPU的归并算法实现

很久不写程序,犯了很多的错误!

逻辑条理不清晰,分析不够全面 ,蛋疼了两天才弄出来!并且为了,逻辑上的简洁,目前的版本只能用于一个block!

由于CUDA中,并不能实现全局线程的同步,所以,多个block线程的同步没法做到,只能是在每个block完成工作后,重新开启kernel函数,进一步归并,这样就到了更上一层。

虽然没多少人看,还是说一下!

我习惯在代码中附上自己的分析,思路,已经犯过的错误!相信以后看起来会更容易!

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include<stdlib.h>
#include<iostream>
#include<device_functions.h>
#include<string.h>

#include <stdio.h>
using namespace std;

#define N 256//定义有N个数需要排序
#define size N*sizeof(float)
__global__ void mergeSort_kernel(float *d_a,float *d_b);
__device__ void mergeSort(float *d_a,float *d_b,int tid,int stride);
void showData(float *p);

int main()
{
	cudaError_t err;
	err=cudaSuccess;//定义成功码
	float *h_a,*h_b;

	h_a=(float*)malloc(size);
	srand(2014);
	h_b=(float*)malloc(size);memset(h_b,0,size);
	for(int j=0, i=256;i<512;i++,j++)
	{
		//h_a[i]=rand();
		h_a[j]=i;
	}
	cout<<"随机数初始化完成!"<<endl;
	showData(h_a);
	cout<<endl;
	
	float *d_a,*d_b;
	err=cudaMalloc((void**)&d_a,size);
	if(err!=cudaSuc
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值