[翻译]CUDA-C-Programming-Guide Maximize InstructionThroughput

最新推荐文章于 2023-03-26 22:03:19 发布

weiwei0319

最新推荐文章于 2023-03-26 22:03:19 发布

阅读量569

点赞数

分类专栏： CUDA

CUDA 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

为了最大化CUDA-C程序的指令吞吐量，应当避免使用低吞吐量的计算指令，减少分支并降低指令数量。具体策略包括使用精度换取速度，如单精度代替双精度，优化分支条件，利用向量化指令提高性能，以及谨慎处理同步指令。例如，__fdividef用于提升单精度除法性能，rsqrtf提供更快的平方根计算。同步指令如__syncthreads()的执行效率会因设备型号而异。

摘要由CSDN通过智能技术生成

5.4 最大化指令吞吐量

为了达到最大的指令吞吐量，程序应该：

最小化使用低吞吐量的计算指令；有以下方法：在不影响结果的情况下以精度换取执行速度，比如使用指令来代替内置函数，用单精度代替双浮点精度，或者将非归一化数据刷新为0.
最小化分支
减少指令的数量，

本章节中，吞吐量通过每个SM每个时钟周期进行的运算次数来表示。对于一个warp=32，一条指令对应了32次运算，所有如果一个时钟周期进行了N次运算，那么指令吞吐量就是每个时钟周期N/32个指令。

吞吐量是针对一个SM的，将其乘以SM的数量就得到整个设备的吞吐量。

5.4.1 计算指令

下表给出了各种不同设备天然支持的计算吞吐量

两外还有些指令和函数在天然指令的顶端实现。对于不同计算能力设备函数实现可能都不相同，不同的编译器版本，生成的指令个数也不相同。对于一些复杂点的函数，根据输入不同会有不同的分支代码。可以用cuobjdump来检查cubin 对象更具体的实现。

在头文件中可以查看这些函数的实现(math_functions.h,device_function.h,…)

一般的，带了-ftz=true（非正规化数据刷新为0）比带-ftz=false 编译选项编译出来的代码有更高的性能。加了-prec div=false（更低的精度）比-prec div=true编译选项编出来的代码有更高的性能。加了-prec-sqrt=false（更低精度的平方根）比-prec-sqrt=true编译选项生成的代码有更高的性能。更多详细的信息可以查看nvcc的用户手册。

单精度浮点除法

__fdividef(x,y)提供了比一般除法运算更高性能的单精度浮点数除法。

单精度浮点对数平方根

在符合IEEE-754的条件下，当对数和平方根近似时，编译器将1.0/sqrtf()优化成rsqrtf()，所以在需要的地方推荐直接调用rsqrtf()。

单精度浮点数平方根

单精度平方根被实现为平方根的倒数的倒数，而不是平方根的倒数后接乘法，因为这样可以得到0或者无穷大的结果。

正玄和余玄函数

Sinf(x),cosf(x),tanf(x),sinconsf(x)和对应的双精度浮点数函数在参数x很大时性能都比较低。

更准确的说，输入的参数决定了函数内部代码的走向：快速的实现还是慢速的实现。

当输入参数小时，运算只是一些简单的乘加运算，函数会执行快速的实现。当输入参数大，就会包括一些很冗长的运算，函数为了得到准确的结果就会执行慢速的实现。

目前来讲，当参数小于105615.0f的单精度时函数执行快速实现；小于2147483648.0的双精度时，函数执行慢速的实现。

因为慢速的实现会比快速的实现使用更多的寄存器，并且尝试减少寄存器的压力，在慢速实现代码中，一些中间临时变量都存在局部存储器，而局部存储器延迟高，带宽低。当前的实现时局部存储器的28字节被单精度函数使用，双精度函数使用局部存储器的44字节。