- 博客(8)
- 资源 (1)
- 收藏
- 关注
转载 CUDA 学习笔记七
这节是关于Branch Divergence and Unrolling Loop。Avoiding Branch Divergence有时,控制流依赖于thread索引。同一个warp中,一个条件分支可能导致很差的性能。通过重新组织数据获取模式可以减少或避免warp divergence(该问题的解释请查看warp解析篇)。The Parallel Reduction Problem...
2018-08-07 10:47:33 268
转载 CUDA 学习笔记六
Exposing Parallelism这部分主要介绍并行分析,涉及掌握nvprof的几个metric参数,具体的这些调节为什么会影响性能会在后续博文解释。代码准备下面是我们的kernel函数sumMatrixOnGPUD: __global__ void sumMatrixOnGPU2D(float *A, float *B, float *C, int NX, int N...
2018-08-07 10:38:36 197
转载 CUDA 学习笔记五
Warp逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。Warps and Thread Blockswarp是SM的基本执行单元。一个warp包含32个并行thread,这32个thread执行于SMIT模式。也就是说所有thread执行同一条指令,并且每个thread会使用各自的da...
2018-08-07 10:34:49 319
转载 CUDA 学习笔记四
GPU架构SM(Streaming Multiprocessors)是GPU架构中非常重要的部分,GPU硬件的并行性就是由SM决定的。以Fermi架构为例,其包含以下主要组成部分:CUDA cores Shared Memory/L1Cache Register File Load/Store Units Special Function Units Warp Schedul...
2018-08-07 10:32:08 241
转载 CUDA 学习笔记三
device管理NVIDIA提供了集中凡是来查询和管理GPU device,掌握GPU信息查询很重要,因为这可以帮助你设置kernel的执行配置。本博文将主要介绍下面两方面内容:CUDA runtime API function NVIDIA系统管理命令行使用runtime API来查询GPU信息你可以使用下面的function来查询所有关于GPU device 的信息:c...
2018-08-07 10:31:10 215
转载 CUDA 学习笔记二
前言线程的组织形式对程序的性能影响是至关重要的,本篇博文主要以下面一种情况来介绍线程组织形式:2D grid 2D block一些基本的描述:gridDim.x-线程网络X维度上线程块的数量gridDim.y-线程网络Y维度上线程块的数量blockDim.x-一个线程块X维度上的线程数量blockDim.y-一个线程块Y维度上的线程数量blockIdx.x-线程网络X维度上的线程块索...
2018-08-07 10:28:33 263
转载 CUDA 学习笔记一
本系列的CUDA转自:http://www.cnblogs.com/1024incn/tag/CUDA/版权归原作者所有,仅供学习。由于各种需求,所以略微了解学习一下gpu的CUDA怎么操作?CUDA简介CUDA是并行计算的平台和类C编程模型,我们能很容易的实现并行算法,就像写C代码一样。只要配备的NVIDIA GPU,就可以在许多设备上运行你的并行程序,无论是台式机、笔记本抑或平...
2018-08-07 10:22:11 288
django的xadmin安装包(亲测有效 无bug)
2020-12-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人