CUDA总体优化策略

Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE 一、选择程序中最耗时的部分,对它进行并行化,道理就是如果你选择了消耗运行时间10%的部分来并行化,就算你达到了10倍的加速,现在的运行时间还是以前的91%,但是如果你并行的是消耗运行时间90%的部分,则现在的时间是以前的19%

 

二、最大化并行,就是在你选择的部分,使用尽可能多的线程来处理它,并且让每个线程尽可能多的计算,因为如果数据传输的时间太大的话,无论你提高多少倍也没多大作用,对于数据传输,首先要保证传输次数少,其次传输量要小,可以使用cudaMallocHost来加速传输。当然,这和问题本身,算法,硬件都有关系。

 

三、尽量保证全局内存融合,尽量使用cuda已经定义好的向量,他们往往已经对齐了,而且cutil_math.h中还有相关的操作符重载,对自己定义的结构体要使用对齐,如果实在无法实现内存融合的话,使用texture

 

四、使用shareconstant存储器,同时保证share不出现memory bank,就算有严重的bank conflictshared通常也快于global

 

五、优化register的使用,可以查看cubin文件,如果使用了lmem,那么你就得考虑这个问题了,解决这个问题的方法,使用share,减小block尺寸,后一条可能更实用。

 

六、注意条件分支语句,尽量少用分支;展开循环,使用inline减少函数调用。

 

七、优化指令使用,尽量使用吞吐量大的指令,而不是相反,比如use-fast-math编译选项。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/23057064/viewspace-629488/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/23057064/viewspace-629488/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值