![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CUDA
文章平均质量分 77
奋斗在哈佛
这个作者很懒,什么都没留下…
展开
-
寄存器使用过多成为CUDA程序瓶颈的情况分析
原文地址: 作者:事实上,寄存器数量限制程序性能的案例还是比较少的。首先您要明确是否真的是此因素导致了您程序性能无法进一步提升。寄存器影响主要两个方面:active warp 的数量(即occupancy )和寄存器溢出导致的local memory的传输。首先看active warp:什么时候是因为寄存器使用过多导致active warp数量少,导致性能低呢?转载 2014-04-11 09:25:14 · 2853 阅读 · 0 评论 -
CUDA:低占用率下的更好性能(一)
这两天看到Vasily Volkov牛人的ppt,对如何更有效的使用GPU做通用计算提出了增加线程级并行以外的另一种方法---增加指令级并行,受益匪浅。刚好也没找到中文版本,就翻译过来与大家交流下,有错误请各位牛人指正,所有的实验结果和图片均出自原ppt。请参考《Better Performance at Lower Occupancy》后面两个案例有时间会放上来... -----转载 2014-04-11 09:30:31 · 1154 阅读 · 0 评论 -
CUDA:低占用率下的更好性能(二)
http://blog.sina.com.cn/s/blog_70684c2a0100vjif.html转载 2014-04-11 09:34:04 · 686 阅读 · 0 评论 -
CUDA:低占用率下的更好性能(三)
前两部分是有关ILP隐藏计算和访存延迟,从而在GPU低占用率的情况下达到高并行度和吞吐率。下一部分是讨论在共享内存(shared memory)和寄存器(register)之间的权衡,作者从吞吐率的角度上说明使用共享内存达不到最好性能,最好降低占用率从而尽可能多的使用寄存器。------------------------------------------------------------转载 2014-04-11 09:35:28 · 474 阅读 · 0 评论