GPGPU编程技术-从GLSL、CUDA到OpenCL 平方和算法第三版

最新推荐文章于 2023-05-05 10:40:59 发布

NYG8945

最新推荐文章于 2023-05-05 10:40:59 发布

阅读量2.5k

点赞数

分类专栏： CUDA学习日记文章标签： cuda 函数算法编程

本文链接：https://blog.csdn.net/NYG8945/article/details/53013950

版权

CUDA学习日记专栏收录该内容

12 篇文章 2 订阅

订阅专栏

//GPGPU编程技术-从GLSL、CUDA到OpenCL  平方和算法第三版 增加计时函数  //
//书中程序168页
#include <stdio.h>
#include <iostream>
#include <cuda_runtime.h> // For the CUDA runtime routines (prefixed with "cuda_")
#include <device_launch_parameters.h> //我在查询中找到的头文件 有可能有别的表达方式
#include <time.h> //计时用的函数库


#define DATA_SIZE 1048576   //4MB 的数据
#define THREAD_NUM 256      //线程数
using namespace std;
int anData[DATA_SIZE];

//生成随机数据量
void GenerateNumber(int *pnNumber, int nSize)
{

    for (int i = 0; i < nSize; i++)  pnNumber[i] = rand() % 10;
}

//全局函数计算平方和内核：在主机上调用，在设备上执行
__global__ static void sumofSquares(int *pnNum, int* pnResult,clock_t *pclock_ttime)
{
    int tid = threadIdx.x;
    int nSum = 0;
    int i;

    int nSize = 0;


    if (DATA_SIZE % THREAD_NUM) nSize = DATA_SIZE / THREAD_NUM + 1;
    else nSize = DATA_SIZE / THREAD_NUM; //nSize 一个线程计算的数据量



    //计时开始
    clock_t clock_tstart;
    if ( tid == 0 )  clock_tstart = clock(); //用了一个线程计时，足以精确请放心

    for ( i=tid ; i < DATA_SIZE ; i += THREAD_NUM)
    {
        nSum += (pnNum[i] * pnNum[i]);

    }
    pnResult[tid] = nSum;
    //计时结束
    if ( tid == 0) *pclock_ttime = clock() - clock_tstart; //用了一个线程计时
}

void main()
{
    GenerateNumber(anData, DATA_SIZE); //生成随机数据量
    int *pnGpuData, *pnResult;
    clock_t *pclock_ttime;//储存时间的
    int *nSummat;
    cudaMallocHost((void**)&nSummat, sizeof(int) * THREAD_NUM);
    cudaMalloc ((void**)&pnGpuData, sizeof(int) * DATA_SIZE);
    cudaMalloc ((void**)&pnResult , sizeof(int) * THREAD_NUM);
    cudaMalloc((void**)&pclock_ttime, sizeof(clock_t));

    cudaMemcpy(pnGpuData, anData, sizeof(int)*DATA_SIZE, cudaMemcpyHostToDevice);

    //本版本是基础版本 在此基础上学习逐渐内存与内核并行优化
    //所以这里只用了一个内核
    sumofSquares <<< 1, THREAD_NUM , 0 >>>(pnGpuData, pnResult,pclock_ttime);

    cudaMemcpy(nSummat, pnResult, sizeof(int) * THREAD_NUM, cudaMemcpyDeviceToHost);
    clock_t pclocksum;
    cudaMemcpy(&pclocksum,pclock_ttime, sizeof(clock_t), cudaMemcpyDeviceToHost);

    //在cpu上最后加和运算
    int finishsum = 0;
    for (size_t i = 0; i < THREAD_NUM; i++)
    {
        finishsum = finishsum + nSummat[i];

    }

    printf("SuM = %d    Time = %d\n", finishsum, pclocksum);
    cudaFree(pnGpuData);
    cudaFree(pnResult);
    cudaFree(pclock_ttime);
    cudaThreadExit();  //加上这个可以用 NVIDIA visual profiler进行分析
    system("pause");

    //return 0;

}

运行结果：

SuM = 29887816 Time = 3994774
请按任意键继续…

NYG8945

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GPGPU编程技术-从GLSL、CUDA到OpenCL 平方和算法第三版

//GPGPU编程技术-从GLSL、CUDA到OpenCL 平方和算法第三版增加计时函数 ////书中程序168页#include <stdio.h>#include <iostream>#include <cuda_runtime.h> // For the CUDA runtime routines (prefixed with "cuda_")#include <device_
复制链接

扫一扫