- 博客(4)
- 收藏
- 关注
原创 CUDA并行程序设计 GPU编程指南 第三章:CUDA硬件概述
第三章:CUDA硬件概述2021年8月20日星期五尽管本章内容较老,是2013年以前的内容。发展到2021年,CPU、GPU、存储系统都有所发展和变化,但其基本框架和原理大致相同。可供参考。Key Message:1、CUDA 4.0 SDK以后支持GPU-Direct功能,可以支持NIC跟GPU、GPU到GPU之间,直接通过PCIe进行数据传输,无需通过CPU进行中转。具体如何使用该功能,对支撑环境,包括、硬件(NIC、GPU等)、软件(驱动、SDK版本等)等,有哪些要求,开发环境如何配置等,需要
2021-08-20 14:40:32 154
原创 CUDA并行程序设计 GPU编程指南 第二章:使用GPU理解并行计算
第二章:使用GPU理解并行计算2021年8月20日星期五本章讨论了串行计算修改成并行计算的一般设计方法,较为抽象。但提供了很多研究线索。1、 GPU中块的数量,一般是SM数量的816倍(每个SM能并发调度816个线程块);2、 块内线程的数量,小于1024(受限于SM中寄存器数量),不小于256,以覆盖Global Memory访问延迟,且等于WARP SIZE=32的整数倍。3、 流水线并行处理(pipeline parallelism)VS 数据并行处理4、 CUDA不考虑缓存一致性,交给程
2021-08-20 11:15:35 530
原创 CUDA并行程序设计 GPU编程指南: 第一章:超级计算简史
第一章:超级计算简史2021年8月19日星期四1、串行转并行:数据分解数据分解模型:各个SPE处理一部分数据,最后,PPC汇总结果。适用场景:数据密集,数据量大,但数据处理不是太复杂;且各个数据之间,互相独立,可以进行独立计算。比如:图像数据处理,各个像素独立处理;或者无线通信,各个不同频段的数据单独处理等。2、串行转并行:任务分解任务分解模型:复杂的计算,按流水线,分解成可单独执行的简单计算,各个SPE只执行部分计算任务。适用场景:计算密集型,数据有限,但计算量比较大,比如:高阶矩阵求逆,计
2021-08-19 18:00:08 425
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人