下面是我的代码展示,可是最后计算出的π值却很不准确。哪一位大佬可以帮忙解决一下。
#include <stdio.h>
#include "cuda_runtime.h"
#include <ctime>
#include <stdlib.h>
#include <math.h>
#include "device_functions.h"
#define CUDA_KERNEL_LOOP(i, n)\
for(int i = blockIdx.x * blockDim.x + threadIdx.x;\
i < (n); \
i += blockDim.x * gridDim.x)//blockDim.x为所有的线程的数量,gridDim为所有块的数量
//为了防止线程数远远少于所需计算的数目,
__global__ void sum(int *a, int *b, int num)
{
int tid = threadIdx.x;
b[0] = 0;
__shared__ float sData[512];//定义共享内存,由于共享内存不能超过总线程的容纳,所以在这里直接定义为固定值512
for (int count = 0;count < ceilf(num / 512);count++)
{
if (tid + count * 512 < num)