CUDA学习——Chapter 3(1)流式多处理器(SM)介绍

第三章

上一章我们讨论了不同内存布局对核函数性能的影响,这一章我们就从硬件的角度,去探究为什么布局会导致核函数运行的不同。

SM简介

上一节我们说到deviceProp的时候,不知道会不会有读者有疑惑,为什么突然会提到multiprocessor(多处理器)这个概念,这个概念又是什么?其实这个multiprocessor,就是我们这一篇推文要介绍的SM。
先来给大家看看SM的结构:
Fermi架构下的SM结构
这是Fermi架构下的SM结构,主要有CUDA核心、共享内存/L1缓存,寄存器文件,加载/储存单元和线程束调度器。在后面我会给大家讲解一下,这些东西到底是什么。现在,我们先假设SM是一个黑匣子。我们来探究一下并行处理在SM上运行的特质。

我们再来回顾一下,CUDA是怎么分割全局内存的。网格->块->线程。而其中,线程块实际上是在SM上面执行的。每个线程块都只会被调度到任意一个SM上,并且就在这个SM上并发运行。但是一个SM不止接收一个线程块,它会有多个线程块进行调度。这个调度是根据SM资源的可用性决定的。

抽象,真的抽象。

我们再讲细一点。CUDA和普通的SIMD架构不同的是,CUDA是采用SIMT架构来管理和执行线程的。SIMT架构,也就是单指令多线程架构。在CUDA中,线程的一个小集合叫做线程束(warp)。warp是以32个线程组成的一个小的关于线程的基本单元,每个SM都会

  • 8
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值