CUDA编程 float计算速度更快以及解决float精度问题方法

在使用CUDA并行编程设计radon变换函数时,由于我的GPU计算能力仅有3.5,没办法使用双精度double的原子操作,于是用float代替全部的double,结果发现计算速度提高了一倍(如果用double的话,在release下是450ms,使用float,仅需要225ms),感觉可能GPU计算float的速度比double要快(个人感觉,还没被验证)

如果使用官方提供的利用atomicCAS来设计atomicAdd函数的话,在计算量非常大的时候,会遇到奇怪的问题,返回错误码719。我搜遍了网络都没找到答案,无奈最后将全部double改成float型,使用CUDA自带的float的atomicAdd,问题得到解决——感觉应该是自己设计的double型atomicAdd,在计算量大的时候用光了GPU的全部资源

但是随之而来的问题是精度的问题,解决的方法是在CPU上计算时尽量用double,一些乘数的因子也尽量用double表示,而在GPU上的数据用float表示,少量的中间变量也可以用double处理

CUDA优化

以下参考自原文链接

  • 尽量少使用低吞吐量的算术指令;
  • 在不影响最后结果的情况下使用低精度类型,使用内部计算接口而不是自己实现;
  • 使用单精度float而不是双精度double
  • 尽量减少流程控制指令,即减少条件分支。比如(1)控制条件仅取决于(threadIdx / warpSize);(2)使用#pragma unroll展开循环。
  • __fdividef(x,y)是比除法运算符更快的单精度浮点除法 大部分情况下,rsqrtf()效率比1.0 / sqrtf()高。
  • 使用三角函数时,尽量使用单精度,且x值域较小为宜;
  • 尽量使用位运算代替整数除法和模运算;
  • 半精度计算,使用half2代替half
  • 调用接口时,尽量保持参数类型一致,否则会有类型转换的消耗;比如函数参数是int类型,输入是char类型或者short类型,需要先将类型转化为int类型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值