二、最大化并行,就是在你选择的部分,使用尽可能多的线程来处理它,并且让每个线程尽可能多的计算,因为如果数据传输的时间太大的话,无论你提高多少倍也没多大作用,对于数据传输,首先要保证传输次数少,其次传输量要小,可以使用cudaMallocHost来加速传输。当然,这和问题本身,算法,硬件都有关系。
三、尽量保证全局内存融合,尽量使用cuda已经定义好的向量,他们往往已经对齐了,而且cutil_math.h中还有相关的操作符重载,对自己定义的结构体要使用对齐,如果实在无法实现内存融合的话,使用texture
四、使用share,constant存储器,同时保证share不出现memory bank,就算有严重的bank conflict,shared通常也快于global。
五、优化register的使用,可以查看cubin文件,如果使用了lmem,那么你就得考虑这个问题了,解决这个问题的方法,使用share,减小block尺寸,后一条可能更实用。
六、注意条件分支语句,尽量少用分支;展开小循环,使用inline减少函数调用。
七、优化指令使用,尽量使用吞吐量大的指令,而不是相反,比如use-fast-math编译选项。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23057064/viewspace-629488/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/23057064/viewspace-629488/