cuda优化-展开循环

最新推荐文章于 2024-09-20 21:21:51 发布

redline2005

最新推荐文章于 2024-09-20 21:21:51 发布

阅读量7.5k

点赞数 2

分类专栏： c/c++ programming parallel computing

c/c++ programming 同时被 2 个专栏收录

33 篇文章 1 订阅

订阅专栏

parallel computing

17 篇文章 1 订阅

订阅专栏

最近看到了一些循环展开优化程序性能的知识，总结一下。循环展开，即 #pragma unroll N(N为要展开的数值)。一般来说，循环展开主要是为了减少CUDA运行的分支冲突，由于GPU中SM架构的特殊性以及WARP(Half-warp)执行的严格并行性，使得循环语句有着交的的分支冲突，通过循环展开，可以有效的降价分支冲突。如：

就是完全循环展开后的形式，但是也可以不完全循环展开，只展开循环体中的一部分。这样也可以有效的提高性能。

但是循环展开会使得寄存器的使用增加，因为编译时已知使用常量索引(意味着要完全循环展开吗)的数组通常位于寄存器中，但是如果使用变量索引，则不能位于寄存器中。需要循环展开才能在寄存器存储器（不是较慢的全局存储器）中保存数组元素。但是，展开循环可能使寄存器的使用量大大上升，这将导致在局部内存中保存变量——抵消了循环展开的诸多好处。可以使用nvcc选项“—maxrregcount=value”告诉编译器使用更多寄存器（注意：可以指定的最大寄存器数量为128）。这需要在“使用更多的寄存器”和“创建更少的线程”之间权衡利弊，有可能会妨碍隐藏存储器延迟。在某些架构中，使用该选项可能造成资源不足，从而导致内核无法启动。因此可以说，要慎重使用循环展开！

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

redline2005 CSDN认证博客专家 CSDN认证企业博客

码龄20年

西北农林科技大学

48: 原创

17万+: 周排名

76万+: 总排名

60万+: 访问

: 等级

4933: 积分

155: 粉丝

148: 获赞

75: 评论

430: 收藏

私信

关注

热门文章

分类专栏

最新评论

奇异值分解及几何意义
深北: 请不要盗用别人文章，转载请说明地址，连图都不换
有关Libssh2的Win32程序开发中遇到的若干问题的汇总 .
weixin_43041352: 请问一下，这个调整大小在什么地方调整呢？read之前？现在有新的函数取代这个了需要传参window，都不知道这个是什么参数。。。刚入行写c的小白洗碗前辈指正！
奇异值分解及几何意义
louloulou66: 我们现在可以简单描述下经过 M 线性变换后的向量 x 的表达形式。由于向量v1 和v2是正交的单位向量，我们可以得到如下式子： x = (v1x)v1 + (v2x)v2 请问这里是因为v1是单位向量所以可以随意乘起吗，感谢
奇异值分解及几何意义
A Duter: 这句话有问题：如果我们用这些特征向量对网格平面进行线性变换的话，再通过 M 矩阵对网格平面进行线性换的效果跟对M 矩阵的特征向量进行线性变换的效果是一样的。应该改成：如果我们用这些特征向量对网格平面进行线性变换的话，再通过 M 矩阵对网格平面进行线性换的效果跟M 矩阵对它的特征向量进行线性变换的效果是一样的。
elsevier 投稿不能生成PDF的问题，我的解决方法
qq_44035846: 博主，我现在遇到了同样的情况惹，请求帮助，看到的时候能联系下我不，感谢，qq：1729788216

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。