CUDA程序优化小记(九)

本文是CUDA程序优化系列的第九篇,介绍了CUDA内部函数__mul24和__umul24在整数乘法运算中的优化效果。通过对比测试,发现在计算能力1.x的GPU上,这两个函数能提供更高的效率,但在2.x及更高版本的硬件中,其效率可能低于常规的*运算。作者在GT750M显卡上进行实验,发现使用内部函数并未带来预期的性能提升,暗示了进一步优化CUDA程序的潜力。
摘要由CSDN通过智能技术生成

CUDA程序优化小记(九)

 

CUDA全称Computer Unified Device Architecture(计算机统一设备架构),它的引入为计算机计算速度质的提升提供了可能,从此微型计算机也能有与大型机相当计算的能力。可是不恰当地使用CUDA技术,不仅不会让应用程序获得提升,反而会比普通CPU的计算还要慢。最近我通过学习《GPGPU编程技术》这本书,深刻地体会到了这一点,并且用CUDA Runtime应用改写书上的例子程序来体会CUDA技术给我们计算能力带来的提升。

原创文章,反对未声明的引用。原博客地址:http://blog.csdn.net/gamesdev/article/details/18867739

       就像GLSL一样,CUDA内部有一些预定义的算术指令,称为内部函数集(intrinsic functions)。这些算术指令根据GPU的物理实现做了相应的优化,这样可以更加快速地并行执行,同时这些函数是符合IEEE标准的,因此可以将数字和变量直接应用进来。这次我们将尝试CUDA中的两个整数乘法运算函数:__mul24__umul24

       正如它们的名字所示,它们是用作整型运算的,含有u前缀表明它是无符号整型。24表示它作的是24位的计算。这两个函数和当下*运算符的区别是在计算能力1.x的时候调用__mul24__umul24

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值