循环展开导致代码无法启动。。。cuda优化-展开循环的知识

前两天手动将循环展开,在windows下出现了错误,不知道为什么,在linux下成功启动,也可以设置register使用,但不知道原因。今天看到这个,才明白,记录下。

原来展开后的代码的中间计算过程也是需要寄存器来存储临时变量的。


转载:http://blog.csdn.net/redline2005/article/details/23161525

最近看到了一些循环展开优化程序性能的知识,总结一下。循环展开,即 #pragma unroll N(N为要展开的数值)。一般来说,循环展开主要是为了减少CUDA运行的分支冲突,由于GPU中SM架构的特殊性以及WARP(Half-warp)执行的严格并行性,使得循环语句有着交的的分支冲突,通过循环展开,可以有效的降价分支冲突。如:

就是完全循环展开后的形式,但是也可以不完全循环展开,只展开循环体中的一部分。这样也可以有效的提高性能。

但是循环展开会使得寄存器的使用增加,因为编译时已知使用常量索引(意味着要完全循环展开吗)的数组通常位于寄存器中,但是如果使用变量索引,则不能位于寄存器中。需要循环展开才能在寄存器存储器(不是较慢的全局存储器)中保存数组元素。但是,展开循环可能使寄存器的使用量大大上升,这将导致在局部内存中保存变量——抵消了循环展开的诸多好处。可以使用nvcc选项“—maxrregcount=value”告诉编译器使用更多寄存器(注意:可以指定的最大寄存器数量为128)。这需要在“使用更多的寄存器”和“创建更少的线程”之间权衡利弊,有可能会妨碍隐藏存储器延迟。在某些架构中,使用该选项可能造成资源不足,从而导致内核无法启动。因此可以说,要慎重使用循环展开!


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值