初识CUDA

最新推荐文章于 2024-01-02 14:09:18 发布

Chester_Sun

最新推荐文章于 2024-01-02 14:09:18 发布

阅读量354

点赞数

分类专栏： CUDA

CUDA 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1 grid 和 block都可以用三元向量来表示：

　　grid的数组元素是block

　　block的数组元素是grid

但是1.x计算能力的核心，grid的第三元必须为1.block的X和Y索引最大尺寸为512

2 通过__launch_bounds__(maxBlockSize,minBlocksPerMp)来限制每个block中最大的线程数，及每个多处理器上最少被激活的block数

3 SM streaming multiprocessor 多流处理器

SP scalar processor cores 标量处理核心

一个Block中的所有线程在一个多处理器上面并发执行。当这个Block的所有线程执行完后，再激活其他等待的Block.一个多处理器上也可以执行多个block。但是一个block却不能拆分为多个处理器上面执行

对于同一个Block里面的线程：

1 同一个Block里的线程可以被同步

2 可以共同访问多处理器里的共享存储器

4 各个存储器存储位置及作用

5、异步并发：

主机上的计算、

设备上的计算、

主机到设备上的传输、

设备到主机上的传输共同执行

6、CPU有强大的分支预测、程序堆栈、循环优化等针对控制采取的复杂逻辑。

GPU相对简单，适合处理顺序的，单一的，少循环，少跳转的语句。

7、

cuda中的同步

1》__syncthreads()同步

　　同一个warp内的线程总是被一同激活且一同被分配任务，因此不需要同步。因此最好把需要同步的线程放在同一个warp内，这样就减少了__syncthreads()的指令

2》__threadfence() __threadfence_block()同步

　　前者针对grid的所有线程，后者针对block内的所有线程。告知线程，全局存储器或共享存储器已经被改变

3》cudaThreadSynchronize() 主机与设备间的同步

　　在主机程序里同步线程。该函数以上的设备线程完成后，控制权才交给cpu

4》volatile关键字

　　使用这个关键字定义数组，设备会知道这个数组随时都会改变，就会自动重新读取数组（但是不能保证线程间读取的数据一致）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。