很久不写程序,犯了很多的错误!
逻辑条理不清晰,分析不够全面 ,蛋疼了两天才弄出来!并且为了,逻辑上的简洁,目前的版本只能用于一个block!
由于CUDA中,并不能实现全局线程的同步,所以,多个block线程的同步没法做到,只能是在每个block完成工作后,重新开启kernel函数,进一步归并,这样就到了更上一层。
虽然没多少人看,还是说一下!
我习惯在代码中附上自己的分析,思路,已经犯过的错误!相信以后看起来会更容易!
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include<stdlib.h>
#include<iostream>
#include<device_functions.h>
#include<string.h>
#include <stdio.h>
using namespace std;
#define N 256//定义有N个数需要排序
#define size N*sizeof(float)
__global__ void mergeSort_kernel(float *d_a,float *d_b);
__device__ void mergeSort(float *d_a,float *d_b,int tid,int stride);
void showData(float *p);
int main()
{
cudaError_t err;
err=cudaSuccess;//定义成功码
float *h_a,*h_b;
h_a=(float*)malloc(size);
srand(2014);
h_b=(float*)malloc(size);memset(h_b,0,size);
for(int j=0, i=256;i<512;i++,j++)
{
//h_a[i]=rand();
h_a[j]=i;
}
cout<<"随机数初始化完成!"<<endl;
showData(h_a);
cout<<endl;
float *d_a,*d_b;
err=cudaMalloc((void**)&d_a,size);
if(err!=cudaSuc