CUDA学习——Chapter 3（1）流式多处理器（SM）介绍

最新推荐文章于 2025-03-09 05:21:29 发布

KarK_Li

最新推荐文章于 2025-03-09 05:21:29 发布

阅读量5.7k

点赞数 8

分类专栏： CUDA 文章标签： CUDA C 并行计算

本文链接：https://blog.csdn.net/weixin_40427089/article/details/86741198

版权

本文是CUDA学习系列的第三章，主要介绍了流式多处理器（SM）的结构和工作原理。SM是CUDA设备上的核心计算单元，负责执行线程块。文章对比了SIMT和SIMD模型，强调了SIMT架构下线程束的并行处理和线程级并发特性，为后续章节的理解奠定基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第三章

上一章我们讨论了不同内存布局对核函数性能的影响，这一章我们就从硬件的角度，去探究为什么布局会导致核函数运行的不同。

SM简介

上一节我们说到deviceProp的时候，不知道会不会有读者有疑惑，为什么突然会提到multiprocessor（多处理器）这个概念，这个概念又是什么？其实这个multiprocessor，就是我们这一篇推文要介绍的SM。
先来给大家看看SM的结构：

这是Fermi架构下的SM结构，主要有CUDA核心、共享内存/L1缓存，寄存器文件，加载/储存单元和线程束调度器。在后面我会给大家讲解一下，这些东西到底是什么。现在，我们先假设SM是一个黑匣子。我们来探究一下并行处理在SM上运行的特质。