- 博客(4)
- 资源 (6)
- 问答 (1)
- 收藏
- 关注
转载 CUDA:低占用率下的更好性能(三)
前两部分是有关ILP隐藏计算和访存延迟,从而在GPU低占用率的情况下达到高并行度和吞吐率。下一部分是讨论在共享内存(shared memory)和寄存器(register)之间的权衡,作者从吞吐率的角度上说明使用共享内存达不到最好性能,最好降低占用率从而尽可能多的使用寄存器。------------------------------------------------------------
2014-04-11 09:35:28
479
转载 CUDA:低占用率下的更好性能(一)
这两天看到Vasily Volkov牛人的ppt,对如何更有效的使用GPU做通用计算提出了增加线程级并行以外的另一种方法---增加指令级并行,受益匪浅。刚好也没找到中文版本,就翻译过来与大家交流下,有错误请各位牛人指正,所有的实验结果和图片均出自原ppt。请参考《Better Performance at Lower Occupancy》后面两个案例有时间会放上来... -----
2014-04-11 09:30:31
1163
转载 寄存器使用过多成为CUDA程序瓶颈的情况分析
原文地址: 作者:事实上,寄存器数量限制程序性能的案例还是比较少的。首先您要明确是否真的是此因素导致了您程序性能无法进一步提升。寄存器影响主要两个方面:active warp 的数量(即occupancy )和寄存器溢出导致的local memory的传输。首先看active warp:什么时候是因为寄存器使用过多导致active warp数量少,导致性能低呢?
2014-04-11 09:25:14
2916
万年日历系统
2014-07-18
Win7下CUDA5.0+VS2010环境配置
2014-04-11
如何定义满足以下的Node与List结构体,今天参加斐讯的一道笔试题。
2014-10-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人