GPU编程 CUDA C++ 性能检测CUDA事件的计时通用框架

该代码示例展示了在CUDA环境中进行GPU计算时如何进行错误检测和事件计时。程序定义了一个错误检查宏,用于处理CUDAAPI调用的错误,并实现了一个在设备上执行的内核函数`arithmetic`,该函数进行特定的数学运算。程序还利用CUDA事件来测量计算的执行时间,并通过多次重复计算来获取平均时间和误差估计。
摘要由CSDN通过智能技术生成

错误检测头文件 error.cuh:

#pragma once
#include <stdio.h>

#define CHECK(call)                                   \
do                                                    \
{                                                     \
    const cudaError_t error_code = call;              \
    if (error_code != cudaSuccess)                    \
    {                                                 \
        printf("CUDA Error:\n");                      \
        printf("    File:       %s\n", __FILE__);     \
        printf("    Line:       %d\n", __LINE__);     \
        printf("    Error code: %d\n", error_code);   \
        printf("    Error text: %s\n",                \
            cudaGetErrorString(error_code));          \
        exit(1);                                      \
    }                                                 \
} while (0)

CUDA事件计时框架示例 arithmetic2gpu.cu:

#include "error.cuh"
#include <math.h>
#include <stdio.h>

#ifdef USE_DP             //编译选项宏定义
    typedef double real;  //使用双精度浮点数
#else
    typedef float real;  //使用单精度浮点数
#endif

const int NUM_REPEATS = 10;
const real x0 = 100.0;
void __global__ arithmetic(real *x, const real x0, const int N);

int main(int argc, char **argv)
{
    if (argc != 2)
    {
        printf("usage: %s N\n", argv[0]);
        exit(1);
    }
    const int N = atoi(argv[1]);
    const int block_size = 128;
    const int grid_size = (N + block_size - 1) / block_size;

    const int M = sizeof(real) * N;
    real *h_x = (real*) malloc(M);
    real *d_x;
    CHECK(cudaMalloc((void **)&d_x, M));

    float t_sum = 0;
    float t2_sum = 0;
    for (int repeat = 0; repeat <= NUM_REPEATS; ++repeat)
    {
        for (int n = 0; n < N; ++n)
        {
            h_x[n] = 0.0;
        }
        CHECK(cudaMemcpy(d_x, h_x, M, cudaMemcpyHostToDevice));

        cudaEvent_t start, stop;      //事件变量定义
        CHECK(cudaEventCreate(&start));  //事件变量初始化
        CHECK(cudaEventCreate(&stop));  //事件变量初始化
        CHECK(cudaEventRecord(start));  //传入函数中开始计时
        cudaEventQuery(start);  //注意,此处不能用CHECK宏函数,CUDA流队列

        arithmetic<<<grid_size, block_size>>>(d_x, x0, N);  //被计时的代码块

        CHECK(cudaEventRecord(stop));     //计时结束
        CHECK(cudaEventSynchronize(stop));   //所有线程同步
        float elapsed_time;          //定义时间差变量
        CHECK(cudaEventElapsedTime(&elapsed_time, start, stop));  //计算时间差
        printf("Time = %g ms.\n", elapsed_time);

        if (repeat > 0)
        {
            t_sum += elapsed_time;
            t2_sum += elapsed_time * elapsed_time;
        }

        CHECK(cudaEventDestroy(start));
        CHECK(cudaEventDestroy(stop));
    }

    const float t_ave = t_sum / NUM_REPEATS;
    const float t_err = sqrt(t2_sum / NUM_REPEATS - t_ave * t_ave);
    printf("Time = %g +- %g ms.\n", t_ave, t_err);

    free(h_x);
    CHECK(cudaFree(d_x));
    return 0;
}

void __global__ arithmetic(real *d_x, const real x0, const int N)
{
    const int n = blockDim.x * blockIdx.x + threadIdx.x;
    if (n < N)
    {
        real x_tmp = d_x[n];
        while (sqrt(x_tmp) < x0)
        {
            ++x_tmp;
        }
        d_x[n] = x_tmp;
    }
}

编译命令:

nvcc -03 -arch=sm_75 -DUSE_DP arithmetic2gpu.cu -o arithmetic2gpu

运行:

./arithmetic2gpu

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

温柔的行子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值