cuda调优

cuda调优工具:

nsight, nvvp, nvprof, 前两个为可视化工具,可以远程监控性能参数, nvprof为命令行监控工具,其实nsight和nvvp的远程监控实现是借助于nvprof来收集性能数据的。

其中nsight和nvvp均可进行远程的工具分析,但是cuda在安装的时候,linux和window下有nvvp工具,但是并没有nsight

在正常的远程测试行能的时候,nsight是正确的,但是nsight却出现了一些错位的情况。

因此对于这种情况可以执行以下操作:

1.nvprof --kernels "kernel_name" --analysis-metrics -o analysis.nvprof app app_params

2.打开nvvp然后执行import->nvprof->sinlge process->analysis.nvprof(拷贝到本地或者远程均可),即可打开

3.对于一些性能还没打开的选项,点击analyze all即可


nsight 文档详细介绍:http://docs.nvidia.com/gameworks/index.html#developertools/desktop/nsight/analysis/report/cudaexperiments/kernellevel/memorystatisticsglobal.htm

这里包含了nsight中的术语的介绍,这会有助于我们理解这些统计数据的意思。


cuda优化方案:

1.检测是否有local memory使用:这个一般是由于local valiable的数组,由于无法在编译确定数组大小或者迭代数组无法展开,这样都会导致数组是存放在local memory的,

而local memory的的访问速度基本和global memory的访问速度一致,因此这应该是需要避免的。解决方案是将数组定义成可以在编译期就可以确定大小,并且迭代访问的数组可以进行展开,这样的话该数组能够在寄存器够用的情况下使用寄存器存储和使用。


2.float浮点数的存取已经达到带宽限制了,那么可以考虑将float浮点数压缩成16位浮点数,这样在相同带宽的情况下,可以加载更多的数据量,以此减少加载数据所需要消耗的时间。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值