增加计时函数 GPGPU编程技术-从GLSL、CUDA到OpenCL 平方和算法第一版

在本函数中增加了计时的功能,需要time.h库函数已经在头文件中添加。

//GPGPU编程技术-从GLSL、CUDA到OpenCL  平方和算法第一版 增加计时函数
//书中程序160页
#include <stdio.h>
#include <iostream>
#include <cuda_runtime.h> // For the CUDA runtime routines (prefixed with "cuda_")
#include <DEVICE_LAUNCH_PARAMETERS.h> //我在查询中找到的头文件 有可能有别的表达方式
#include <time.h> //计时用的函数库


#define DATA_SIZE 1048567   //4MB 的数据
using namespace std;
int anData[DATA_SIZE];

//生成随机数据量
void GenerateNumber(int *pnNumber, int nSize)
{

    for (int i = 0; i < nSize; i++)  pnNumber[i] = rand();
}

//全局函数计算平方和内核:在主机上调用,在设备上执行
__global__ static void sumofSquares(int *pnNum, int* pnResult,clock_t *pclock_ttime)
{
    int nSum = 0;
    //计时开始

    clock_t clock_tstart = clock();
    for (unsigned i = 0; i < DATA_SIZE; i++)
    {
        nSum += pnNum[i] * pnNum[i];
        *pnResult = nSum;
    }
    //计时结束
    *pclock_ttime = clock() - clock_tstart;
}

void main()
{
    GenerateNumber(anData, DATA_SIZE); //生成随机数据量
    int *pnGpuData, *pnResult;
    clock_t *pclock_ttime;//储存时间的
    cudaMalloc ((void**)&pnGpuData, sizeof(int) * DATA_SIZE);
    cudaMalloc ((void**)&pnResult , sizeof(int) );
    cudaMalloc((void**)&pclock_ttime, sizeof(clock_t));
    cudaMemcpy(pnGpuData, anData, sizeof(int)*DATA_SIZE, cudaMemcpyHostToDevice);

    //本版本是基础版本 在此基础上学习逐渐内存与内核并行优化
    //所以这里只用了一个内核
    sumofSquares <<< 1,1 >>> (pnGpuData, pnResult,pclock_ttime);
    int nSum = 0;
    cudaMemcpy(&nSum, pnResult, sizeof(int), cudaMemcpyDeviceToHost);
    clock_t pclocksum;
    cudaMemcpy(&pclocksum,pclock_ttime, sizeof(clock_t), cudaMemcpyDeviceToHost);
    cudaFree(pnGpuData);
    cudaFree(pnResult);
    printf("SuM = %d    Time = %d\n", nSum, pclocksum);
    system("pause");
    //return 0;

}

上边程序有点小错

//GPGPU编程技术-从GLSL、CUDA到OpenCL  平方和算法第一版 增加计时函数
//书中程序160页
#include <stdio.h>
#include <iostream>
#include <cuda_runtime.h> // For the CUDA runtime routines (prefixed with "cuda_")
#include <DEVICE_LAUNCH_PARAMETERS.h> //我在查询中找到的头文件 有可能有别的表达方式
#include <time.h> //计时用的函数库


#define DATA_SIZE 1048576   //4MB 的数据
//#define THREAD_NUM 256      //线程数
using namespace std;
int anData[DATA_SIZE];

//生成随机数据量
void GenerateNumber(int *pnNumber, int nSize)
{

    for (int i = 0; i < nSize; i++)  pnNumber[i] = rand() % 10;
}

//全局函数计算平方和内核:在主机上调用,在设备上执行
__global__ static void sumofSquares(int *pnNum, int* pnResult,clock_t *pclock_ttime)
{
    //const int tid = threadIdx.x;
    //const int nSize = DATA_SIZE / THREAD_NUM;

    //int nSum = 0;
    //计时开始

    clock_t clock_tstart = clock();
    for (unsigned i = 0; i < DATA_SIZE; i++)
    {
        nSum = (pnNum[i] * pnNum[i]) + nSum;

    }
    *pnResult = nSum;
    //计时结束
    *pclock_ttime = clock() - clock_tstart;
}

void main()
{
    GenerateNumber(anData, DATA_SIZE); //生成随机数据量
    int *pnGpuData, *pnResult;
    clock_t *pclock_ttime;//储存时间的
    cudaMalloc ((void**)&pnGpuData, sizeof(int) * DATA_SIZE);
    cudaMalloc ((void**)&pnResult , sizeof(int) );
    cudaMalloc((void**)&pclock_ttime, sizeof(clock_t));

    cudaMemcpy(pnGpuData, anData, sizeof(int)*DATA_SIZE, cudaMemcpyHostToDevice);

    //本版本是基础版本 在此基础上学习逐渐内存与内核并行优化
    //所以这里只用了一个内核
    sumofSquares <<< 1,1 >>> (pnGpuData, pnResult,pclock_ttime);
    int nSum = 0;
    cudaMemcpy(&nSum, pnResult, sizeof(int), cudaMemcpyDeviceToHost);
    clock_t pclocksum;
    cudaMemcpy(&pclocksum,pclock_ttime, sizeof(clock_t), cudaMemcpyDeviceToHost);
    cudaFree(pnGpuData);
    cudaFree(pnResult);
    cudaFree(pclock_ttime);
    printf("SuM = %d    Time = %d\n", nSum, pclocksum);
    system("pause");
    //return 0;

}

改动了一点点

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值