在使用CUDA并行编程设计radon变换函数时,由于我的GPU计算能力仅有3.5,没办法使用双精度double的原子操作,于是用float代替全部的double,结果发现计算速度提高了一倍(如果用double的话,在release下是450ms,使用float,仅需要225ms),感觉可能GPU计算float的速度比double要快(个人感觉,还没被验证)
如果使用官方提供的利用atomicCAS来设计atomicAdd函数的话,在计算量非常大的时候,会遇到奇怪的问题,返回错误码719。我搜遍了网络都没找到答案,无奈最后将全部double改成float型,使用CUDA自带的float的atomicAdd,问题得到解决——感觉应该是自己设计的double型atomicAdd,在计算量大的时候用光了GPU的全部资源
但是随之而来的问题是精度的问题,解决的方法是在CPU上计算时尽量用double,一些乘数的因子也尽量用double表示,而在GPU上的数据用float表示,少量的中间变量也可以用double处理
CUDA优化
以下参考自原文链接
- 尽量少使用低吞吐量的算术指令;
- 在不影响最后结果的情况下使用低精度类型,使用内部计算接口而不是自己实现;
- 使用单精度float而不是双精度double;
- 尽量减少流程控制指令,即减少条件分支。比如(1)控制条件仅取决于(threadIdx / warpSize);(2)使用#pragma unroll展开循环。
- __fdividef(x,y)是比除法运算符更快的单精度浮点除法 大部分情况下,rsqrtf()效率比1.0 / sqrtf()高。
- 使用三角函数时,尽量使用单精度,且x值域较小为宜;
- 尽量使用位运算代替整数除法和模运算;
- 半精度计算,使用half2代替half
- 调用接口时,尽量保持参数类型一致,否则会有类型转换的消耗;比如函数参数是int类型,输入是char类型或者short类型,需要先将类型转化为int类型。