最近看到了一些循环展开优化程序性能的知识,总结一下。循环展开,即 #pragma unroll N(N为要展开的数值)。一般来说,循环展开主要是为了减少CUDA运行的分支冲突,由于GPU中SM架构的特殊性以及WARP(Half-warp)执行的严格并行性,使得循环语句有着交的的分支冲突,通过循环展开,可以有效的降价分支冲突。如:
就是完全循环展开后的形式,但是也可以不完全循环展开,只展开循环体中的一部分。这样也可以有效的提高性能。
但是循环展开会使得寄存器的使用增加,因为编译时已知使用常量索引(意味着要完全循环展开吗)的数组通常位于寄存器中,但是如果使用变量索引,则不能位于寄存器中。需要循环展开才能在寄存器存储器(不是较慢的全局存储器)中保存数组元素。但是,展开循环可能使寄存器的使用量大大上升,这将导致在局部内存中保存变量——抵消了循环展开的诸多好处。可以使用nvcc选项“—maxrregcount=value”告诉编译器使用更多寄存器(注意:可以指定的最大寄存器数量为128)。这需要在“使用更多的寄存器”和“创建更少的线程”之间权衡利弊,有可能会妨碍隐藏存储器延迟。在某些架构中,使用该选项可能造成资源不足,从而导致内核无法启动。因此可以说,要慎重使用循环展开!