CUDA学习笔记：CUDA中影响内核性能的几个因素

最新推荐文章于 2025-04-04 00:00:00 发布

Moonlight_Whisper

最新推荐文章于 2025-04-04 00:00:00 发布

阅读量3.8k

点赞数 2

分类专栏： CUDA

本文链接：https://blog.csdn.net/Moonlight_Whisper/article/details/81050388

版权

CUDA 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了CUDA编程模型，包括GPU资源描述、CUDA编程模型、CUDA执行模型及影响内核性能的因素等内容，帮助读者理解如何有效地进行CUDA编程和优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.GPU资源描述

众所周知，GPU是CPU的协处理器，是一个硬件加速器。在CUDA里，其容量通过CUDA核心数量和内存大小来描述；相应的，其性能由峰值计算性能由峰值计算性能和内存带宽来描述。

以PASCAL架构的GTX1080Ti为例：

其CUDA核心数量3584个(多处理器数量(28SMs)* 每个多处理器上的核心数量(128))，

显存11GB；

峰值浮点数计算能力为11.5TFlops(核心频率(1632.5MHz) * (CUDA核心数量(3584)* 浮点单元数量(256))* 2 OPS / 周期)，

显存带宽484GB/s(GPU芯片数量(2)* 显存等效频率(5505MHz)* 显存位宽(352Bit)/ 8000 = 显存带宽(484.44GB/s))。

二.CUDA编程模型

内存管理上，CUDA的内存分配函数与C语言几乎一样，其中与内核性能相关的函数为cudaError_tcudaMemcpy(void* dist, const void* src, size_t count, cudaMemcpyKindkind)，其中king有cudaMemcpyHostToHost，cudaMemcpyHostToDevice，cudaMemcpyDeviceToHost，cudaMemcpyDeviceToDevice这几种，这个函数是同步执行的，会阻塞主机应用程序。

线程管理上，CUDA使用kernel<<grid,block>>的方式。其中，grid可以是1D，2D，3D，表示其上blocks的数量以及排列方式，block也可以是1D，2D，3D，表示其上threads的数量和排列方式，线程是计算的最小单元。CUDA使用这种方式将任务拆分成若干并行子任务，并分配到每个线程上。

三.CUDA执行模型

GPU架构是围绕一个流式多处理器(SM)的可扩展阵列搭建的，SM的关键组建是：CUDA核心，共享内存/一级缓存，寄存器文件，加载/存储单元，特殊功能单元，线程束调度器。

当某个block被调度到一个SM上时，其中的线程就只会在这个指定的SM上执行，多个blocks可能被调度到同一块SM上。CUDA采用单指令多线程的架构来管理和执行线程，在SM上，每32个threads为一组，被称为warp。一个warp中的所有线程都执行相同的指令。每个线程都有自己的指令地址计数器和寄存器状态，利用自身的数据执行当前的指令。

四.影响内核性能的因素

1.线程分化

如上所述一个warp都执行相同的指令，而如果我们使用例如if...then...else、for和while这样的控制流结构，那么因为GPU没有复杂的分支预测机制，如果满足执行条件的threads数量小于一个warp的大小，warp中其他不满足的条件的threads就都会停止执行，这样就会降低降低内核的执行效率。