CUDA进阶第五篇-如何估算出程序的GPU加速比

当对一个程序进行加速的时候,很多时候需要预估出程序使用GPU加速后的加速比(比如你老板不懂GPU,或者甲方会问你预估加速比等等)。从大二接触GPU加速,到现在大概有6年时间,大大小小的项目也做了十几个,很多时候都需要事先回答加速比会有多少这个问题。这里简单的说一下自己的经验,欢迎各位大神指点。

文中的经验基于目前主流的显卡,比如GTX1080,最低也得是GTX9**系列的。

1.阿姆达尔定律

谈加速比,首先要先明白一个定律-阿姆达尔定律。该定律一般应用与CPU加速,可以总结为一句话-程序中可并行代码的比例决定你增加处理器(总核心数)所能带来的速度提升的上限。

应用在GPU加速情景上比较简单,假设程序S由A和B两个步骤组成,现在对A步骤进行GPU加速,那么GPU加速比=A步骤加速前的时间/A步骤加速后的时间,而不是加速前S的总时间/加速后S的总时间。这个非常重要,因为很多人不懂GPU加速,他们往往只关注整个程序的加速效果。而对于一个完整的程序,很多都包括一些非常耗时的操作(比如读取图片等)。这种情况下就算你对程序中的某个步骤使用GPU加速到极致,整个程序可能只感觉快了一点点,这是非常不公平的。

2.估算加速比

下面将列出几种常见情况。其中CPU实现的大for循环是最耗时的,其次是资源(显存和句柄等)的申请,最后是核函数级别的优化。

(1)程序CPU实现,并行度高,数据依赖低

这是最理想的情况,常见于各种较简单的图像算法,比如二值化,细化等。简单来讲就是一个大for循环,循环之间没有数据依赖。这种情况下,加速比很容易就上10+倍。当图片较大时(比如1024*1024),上几十倍也是很容易的。

(2)程序GPU实现,但是资源管理差

这是次理想的情况,程序已经由GPU核函数或者调用GPU API实现,但是资源(显存和句柄的申请和释放等)管理比较差。比如流程比较算法的算法,显存和句柄在程序中使用时才申请。这种情况下,看资源申请所占的时间比例,不过一般加速比能到几倍就很不错了。

(3)程序GPU实现,但核函数实现比较差

如果资源管理也做的比较好,一般从核函数本身入手了。对核函数进行优化(使用共享内存,条件分支优化,合并核函数等),得到的加速比一般在2X以内,超过2X的情况并不多。

  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值