GPU编程指南
《CUDA并行程序设计 GPU编程指南》的读书笔记
老白(无线通信)
这个作者很懒,什么都没留下…
展开
-
CUDA并行程序设计 GPU编程指南 第三章:CUDA硬件概述
第三章:CUDA硬件概述2021年8月20日星期五尽管本章内容较老,是2013年以前的内容。发展到2021年,CPU、GPU、存储系统都有所发展和变化,但其基本框架和原理大致相同。可供参考。Key Message:1、CUDA 4.0 SDK以后支持GPU-Direct功能,可以支持NIC跟GPU、GPU到GPU之间,直接通过PCIe进行数据传输,无需通过CPU进行中转。具体如何使用该功能,对支撑环境,包括、硬件(NIC、GPU等)、软件(驱动、SDK版本等)等,有哪些要求,开发环境如何配置等,需要原创 2021-08-20 14:40:32 · 177 阅读 · 0 评论 -
CUDA并行程序设计 GPU编程指南 第二章:使用GPU理解并行计算
第二章:使用GPU理解并行计算2021年8月20日星期五本章讨论了串行计算修改成并行计算的一般设计方法,较为抽象。但提供了很多研究线索。1、 GPU中块的数量,一般是SM数量的816倍(每个SM能并发调度816个线程块);2、 块内线程的数量,小于1024(受限于SM中寄存器数量),不小于256,以覆盖Global Memory访问延迟,且等于WARP SIZE=32的整数倍。3、 流水线并行处理(pipeline parallelism)VS 数据并行处理4、 CUDA不考虑缓存一致性,交给程原创 2021-08-20 11:15:35 · 549 阅读 · 0 评论 -
CUDA并行程序设计 GPU编程指南: 第一章:超级计算简史
第一章:超级计算简史2021年8月19日星期四1、串行转并行:数据分解数据分解模型:各个SPE处理一部分数据,最后,PPC汇总结果。适用场景:数据密集,数据量大,但数据处理不是太复杂;且各个数据之间,互相独立,可以进行独立计算。比如:图像数据处理,各个像素独立处理;或者无线通信,各个不同频段的数据单独处理等。2、串行转并行:任务分解任务分解模型:复杂的计算,按流水线,分解成可单独执行的简单计算,各个SPE只执行部分计算任务。适用场景:计算密集型,数据有限,但计算量比较大,比如:高阶矩阵求逆,计原创 2021-08-19 18:00:08 · 439 阅读 · 0 评论