GPU(CUDA)学习日记（三）------ CUDA基本架构介绍以及编程入门！~~

最新推荐文章于 2024-06-09 02:34:19 发布

梦想难吗

最新推荐文章于 2024-06-09 02:34:19 发布

阅读量6.4k

点赞数

分类专栏：动态加载 GPU CUDA 文章标签： cuda 编程 thread compiler include api

本文链接：https://blog.csdn.net/MySniper11/article/details/7824873

版权

本文介绍了CUDA的基本架构，包括thread、block、grid的组织形式以及Warp的概念。CUDA编程中，线程间通信以32个线程为一组的Warp进行，避免了不同block间共享内存的复杂同步。此外，文章详细阐述了CUDA的初始化步骤，包括如何创建CUDA项目、设置编译器，并通过InitCUDA函数展示了如何选择支持CUDA的设备。最后，通过一个实例展示了如何分配GPU内存、传输数据、调用内核函数及计算时间，帮助初学者理解CUDA编程流程。

摘要由CSDN通过智能技术生成

首先，介绍CUDA的架构：在CUDA架构下，线程的最小单元是thread，多个thread组成一个block，多个block再组成一个grid，不同block之间的thread不能读写同一shared memory共享内存，因此，block里面的thread之间的通信和同步所带来的开销是比较大的。SM以 32 个 Thread 为一组的 Warp 来执行 Thread。Warp内的线程是静态的，即在属于同一个warp内的thread之间进行通信，不需要进行栅栏同步(barrier)。Fermi的设计根据G80和GT200的架构作出的很多缺陷来改变。在Fermi中，每个SM中的数量不再是GT200的8个SP，而是变成了32个SP，NVIDIA现在又称之为CUDA Core，总共具有16个SM，所以总共有512个SP。而在GT200中，是30个SM，240个SP。

其次，介绍CUDA的初始化：首先，先建立一个档案 first_cuda.cu。如果是使用 Visual Studio 的话，则请先按照这里的设定方式设定 project。要使用 runtime API 的时候，需要 include cuda_runtime.h。所以，在程序的最前面，加上

#include <stdio.h>

#include <cuda_runtime.h>

接下来是一个 InitCUDA 函式，会呼叫 runtime API 中，有关初始化 CUDA 的功能：
bool InitCUDA()

{

int count;

cudaGetDeviceCount(&count);

if(count == 0)

{

最低0.47元/天解锁文章

梦想难吗

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
GPU(CUDA)学习日记（三）------ CUDA基本架构介绍以及编程入门！~~

首先，介绍CUDA的架构：在CUDA架构下，线程的最小单元是thread，多个thread组成一个block，多个block再组成一个grid，不同block之间的thread不能读写同一shared memory共享内存，因此，block里面的thread之间的通信和同步所带来的开销是比较大的。SM以 32个 Thread 为一组的 Warp 来执行 Thread。Warp内的线程是静态
复制链接

扫一扫

专栏目录