1、第一个CUDA代码：hello gpu

最新推荐文章于 2024-04-27 16:49:54 发布

北北鸿

最新推荐文章于 2024-04-27 16:49:54 发布

阅读量545

点赞数

分类专栏： CUDA 文章标签： c++ 深度学习

本文链接：https://blog.csdn.net/weixin_42287162/article/details/129027380

版权

CUDA 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

第一个CUDA代码：hello gpu

#include <stdio.h>

void cpu()
{
    printf("hello cpu!\n");
}

__global__ void gpu()
{
    printf("hello gpu!\n");
}

int main()
{
    cpu();
    gpu<<<1,1>>>();
    cudaDeviceSynchronize();
}

一、global void GPUFunction()

1.global (限定符)关键字表明以下函数将在GPU上运行并全局调用，而在此种情况下，则由CPU或GPU调用。
2.通常，我们将在CPU上执行的代码称为主机代码，而将在GPU上运行的代码称为设备代码。
3.注意返回类型为void，使用__global__ 关键字定义的核函数需要返回void类型
4.限定符__global__和void的次序可随意，如void global GPUFunction()

二、gpu<<<1,1>>>();

1.通常，当调用要在GPU上运行的函数时，我们将此函数称为已启动的核函数。
2.启动核函数时，我们必须提供执行配置，即在向核函数传递任何预期参数之前使用<<<…>>>语法完成的配置。
3.在宏观层面，我们可通过执行配置为核函数启动指定线程层次结构，从而定义线程组(称为线程块)的数量，以及要在每个线程块中执行的线程数量。稍后深入探讨，现在是正在使用1线程(第二个配置参数)的1线程块(第一个执行配置参数)启动核函数

三、线程块、线程、网格知识

调用核函数时为什么需要这对三括号里面的信息呢？
因为一个GPU中有很多计算核心(如Tesla V100有5120个)，可以支持很多线程(thread)。主机在调用一个核函数时，必须指明需要在设备中指派多少线程，否则设备不知道如何工作。
三括号中的数就是用来指明核函数中的线程数目及排列情况。
核函数中的线程常组织为若干线程块(thread block)：三括号中的第一个数字为线程块个数，第二个数字为每个线程块中的线程数。一个核函数的全部线程构成一个网格(grid)，而线程块的个数为网格大小(grid size)。每个线程块中含有同样数目的线程，该数目称为线程块大小(block size)。所以，核函数中总的线程数就等于网格大小乘以线程块大小，<<<网格大小，线程块大小>>>。

四、核函数中的printf();

1.使用方法和C+++库一样
2.包含头文件<stdio.h>或
3.核函数中不支持c++的iostream

五、cudaDeviceSynchronize();

CUDA的API函数，如果去掉不能输出字符串。
原理是调用此函数时，输出流是先存放在缓冲区的，而缓冲区不会自动刷新。只有程序遇到某种同步操作时缓冲区才会刷新。函数的作用是同步主机与设备，所以能够促使缓冲区刷新。
通俗说是此函数将主机CPU代码暂做等待，直至设备GPU代码执行完成，才能在CPU恢复执行。