2017年01月_Kelvin_Ngan

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 CUDA总结：共享内存

共享内存是片上内存（on-chip），所以速度比一般的显存快很多，如（全局内存、常亮内存、纹理内存）。共享内存是gpu中，带宽仅次于寄存器的存储器。共享内存是有限的，与L1 Cache公用一块on-chip内存，用户可以调整L1 cache与共享内存的大小组合。在on-chip内存的基础上，共享内存还实现了“并行访存”：共享内存被划分为大小相等的n个部分（每个部分称为一个bank），同一时刻的n个访

2017-01-11 21:01:10 3401 2

原创 CUDA总结：CUBLAS

CUBLAS_Library.pdf函数命名规则：类型<type> <t> Meaningfloat, ‘s’ or ‘S’, real single-precisiondouble, ‘d’ or ‘D’, real double-precisioncuComplex, ‘c’ or ‘C’, complex single-precisioncuDoubleComplex, ‘z’ or

2017-01-11 19:41:50 3117

原创 CUDA总结：Occupancy

Occupany 的定义：活动的warp数量与最大数量的比值。意义：GPU的硬件利用率，利用率越高不一定性能就越高，但如果利用率很小，性能肯定不会好。这很好理解，一条马路，利用率太高了，如拥堵，说明车流量太大马路容量（承载能力）不足够了；利用率太低了，则没有充分利用到交通资源，此时无法体现马路的承载能力。同一时刻，GPU的每个SM运行着若干个block，sm会根据block的线程数为其分配寄存器

2017-01-11 15:05:37 4019 2

原创 CUDA总结：纹理内存

来源：《CUDA_Runtime_API》、《CUDA_C_Programming_Guide-V8.0》纹理内存和表面内存（surface memory）实质上是全局内存的一个特殊形态，全局内存被绑定为纹理内存（表面内存），对其的读（写）操作将通过专门的texture cache（纹理缓存）进行，其实称为纹理缓存更加贴切。纹理缓存的优势：纹理缓存具备硬件插值特性，可以实现最近邻插值和线性

2017-01-04 14:35:25 17932 8