CUDA并行程序设计 GPU编程指南第二章：使用GPU理解并行计算

最新推荐文章于 2024-09-07 20:36:35 发布

老白（无线通信）

最新推荐文章于 2024-09-07 20:36:35 发布

阅读量556

点赞数

分类专栏： GPU编程指南

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42705294/article/details/119819340

版权

GPU编程指南专栏收录该内容

3 篇文章 1 订阅

订阅专栏

第二章：使用GPU理解并行计算
2021年8月20日星期五
本章讨论了串行计算修改成并行计算的一般设计方法，较为抽象。但提供了很多研究线索。
1、 GPU中块的数量，一般是SM数量的8_{16倍（每个SM能并发调度8}16个线程块）;
2、块内线程的数量，小于1024（受限于SM中寄存器数量），不小于256，以覆盖Global Memory访问延迟，且等于WARP SIZE=32的整数倍。
3、流水线并行处理（pipeline parallelism）VS 数据并行处理
4、 CUDA不考虑缓存一致性，交给程序员自行处理缓存一致性问题。
5、 SIMD（向量指令，SSE、AVX，Instruction-Level Parallelism ILP）、SISD（串行程序）、MIMD（多核CPU、多线程多进程）、MISD（少见）。 CUDA采用STMD（Single Thread Multi-Data，同一段程序，但各个线程不是指令级同步，可以执行不同的分支）。
6、循环的并行化，需要先剔除循环之间的前后依赖关系。
7、派生（fork）、汇集（join）模式：
fork-joinm模式

8、递归改成迭代，以规避栈的大小限制。

老白（无线通信）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。