GPU读书笔记

1.串行(serial)与并行(parallel)相对应,是指我们从事某项工作时一个步骤接着一个步骤的去实施。


2.GPU主要负责高度线程化的并行任务,CPU负责逻辑性强的事物处理和串行运算。


3.内核函数kernel是一系列的,理想情况下CPU串行代码是负责清理上一个内核函数并启动下一个内核函数。


4.CUDA(compute unified device architecture,统一计算设备架构)并行计算函数称为kernel函数,是负责并行运算的,内部分块为block并行,块block内又分为线程thread并行。


5.CUDA程序的完整执行流程:CPU串行代码->GPU并行kernel->串行代码->并行kernel...


6.CUDA中使用了dim3类型的内建变量threadID和blockID,这样可以使用一维,二维,三维的索引来标志线程块,比如可以直接操作二维数组。


7.避免在CUDA中使用整数的除法和求余以及分支和循环。


8.线程间可以通过sharememory通信,并通过syncthreads()函数同步。


9.一个GPU有多个核SM,一个SM有8个执行单元SP。kernel实质是以block为单位执行的,故一个block需要发送到一个SM处理,block中的线程发送到8个SP上处理,股活动线程不超过8个。


10.实际运行时,block被分成更下的wrap线程束,wrap由多个线程组成,Tesla架构的GPU有32个线程组成一个wrap。wrap中的指令最好相同,即一个wrap中最好不要分支。


11.进行一次一个GPU有多个核SM运算,要在多种存储器间进行几次数据传输,需消耗相当多的时间,这导致GPU不适合对实时性要求高的应用。(???)


SP:最基本的处理单元,streaming processor最后具体的指令和任务都是在SP上处理的。GPU进行并行计算也很多个SP同时做处理。

SM:多个SP加上其他的一些资源组成一个SM,streaming multiprocessor。其它资源也就是存储资源,共享内存寄存器等。

wrap:GPU执行程序时的调度单位,目前CUDA的wrap的大小为32,同在一个wrap的线程,以不同的数据资源执行相同的指令。

thread->block->grid:在利用CUDA进行编程时,一个grid分为多个block,而一个block分为多个thread。其中任务划分是否影响到最后的执行效果。划分的依据是任务特性和GPU本身的硬件特性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值