cuda性能优化

0 篇文章 0 订阅

CUDA 优化的最终目的是:在最短的时间内,在允许的误差范围内完成给定的计算任务。在这里,“最短的时间”是指整个程序运行的时间,更侧重于计算的吞吐量,而不是单个数据的延迟。在开始考虑使用 GPU 和 CPU 协同计算之前,应该先粗略的评估使用 CUDA 是否能达到预想的效果,包括以下几个方面:

精度:目前 GPU 的单精度性能要远远超过双精度性能,整数乘法、求模、求余等运算的指令吞吐量也较为有限。在科学计算中,由于需要处理的数据量巨大,往往采用双精度或者四精度才能获得可靠的结果,目前的 Tesla 架构还不能很好的满足高精度计算的需要。如果你的计算需要很高的精度,或者需要进行很多轮的迭代,最好考虑在关键的步骤中使用双精度,而在其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡。而如果你对精度有更高的要求,那么现在的架构还不能太高的加速比。不过,在 2010 年将会普及的下一代架构中,双精度浮点和整数处理能力将有很大的提升,这种情况会有根本性的改变。

延迟:目前 CUDA 还不能单独为某个处理核心分配任务,因此必须先缓冲一定量的数据,再交给 GPU 进行计算。这样的方式可以获得很高的数据吞吐量,不过单个数据经过缓冲、传输到 GPU 计算、再拷贝回内存的延迟就比直接由 CPU 进行串行处理要长很多。如果对应用实时性要求很高,比如必须在数毫秒内完成对一个输入的处理,那么使用 CUDA 可能会影响系统的整体性能。对于要求人机能够实时交互的系统,应该将延迟控制在数十毫秒,以响应用户的输入。通过减小缓冲,可以减小延迟,但至少要保证每个内核程序处理的一批数据能够让 GPU 满负荷工作。不过在大多数情况下,在计算吞吐量较大,需要由 GPU 才能实时实现的系统,投入相同成本使用 CPU 很难做到接近实时。如果确实对实时性和吞吐量都有很高要求,应该考虑 ASIC 、 FPGA 或者 DSP 实现,这需要更多的投入,更长的开发时间和硬件开发经验。

计算量:如果计算量太小,那么使用 CUDA 是不合算的。衡量计算量有绝对和相对两种方式。

从绝对量来说,如果要优化的程序使用频率比较低,并且每次调用需要的时间也可以接受,那么使用 CUDA 优化并不会显著改善使用体验。对于一些计算量非常小(整个程序在 CPU 上可以在几十毫秒内完成)的应用来说,使用 CUDA 计算时在 GPU 上的执行时间无法隐藏访存和数据传输的延迟,此时整个应用程序需要的时间反而会比 CPU 更长。此外,虽然GPU 的单精度浮点处理能力和显存带宽都远远超过了 CPU ,但由于 GPU 使用 PCI-E 总线与主机连接,因此它的输入和输出的吞吐量受到了 IO 带宽的限制。当要计算的问题的计算密集度很低时,执行计算的时间远远比 IO 花费的时间短,那么整个程序的瓶颈就会出现在 PCI-E 带宽上。此时无论如何提高浮点处理能力和显存带宽,都无法提高系统性能。

相对的计算量指可以并行的部分在整个应用中所占的时间。如果整个应用中串行部分占用时间较长,而并行部分较短,那么也需要考虑是否值得使用 GPU 进行并行计算。例如,假设一个程序总的执行时间为 1.0 ,其中串行部分占 0.8 ,而并行部分只占 0.2 ,那么使用 GPU 将并行部分加速 10 倍,总的执行时间也只能从 1.0 降低到 0.82 。即使是在 CPU 和 GPU 可以同时并行计算的应用中,执行时间也至少是 CPU 串行计算需要的 0.8 。只有在并行计算占用了绝大多数计算时间的应用中,使用 CUDA 加速才能获得很高的加速比。不过,随着 GPU+CPU 并行计算的普及和 GPU 架构的进一步改进,即使获得的加速比较小,也可能会由 GPU 执行。

完成对 GPU 加速能够达到的效果的粗略评估后,就可以开始着手编写程序了。为了在最短的时间内完成计算,需要考虑算法、并行划分、指令流吞吐量、存储器带宽等多方面问题。总的来说,优秀的 CUDA 程序应该同时具有以下几个特征:

在给定的数据规模下,选用算法的计算复杂度不明显高于最优的算法;

active warp 的数量能够让 SM 满载,并且 active block 数量大于 2 ,能够有效的隐藏访存延迟;

当瓶颈出现在指令流时,指令流效率已经经过了充分优化;

当瓶颈出现在访存或者 IO 时,已经选用了恰当的存储器和和存储器访问方式以获得最大带宽。

按照开发流程的先后顺序, CUDA 程序的编写与优化需要解决以下问题:

1 .确定任务中的串行部分和并行部分,选择合适的算法。首先,需要将问题分为几个步骤,并确定哪些步骤可以用并行算法实现,并确定要使用的算法。

2 .按照算法确定数据和任务的划分方式,将每个需要并行实现的步骤映射为一个满足 CUDA 两层并行模型的内核函数。在这里就要尽量让每个 SM 上拥有至少 6 个活动 warp 和至少 2 个活动线程块。

3 .编写一个能够正确运行的程序,作为优化的起点。程序必须能够稳定运行,不能发生存储器泄漏的情况。为了保证结果正确,在必要的时候必须使用 memory fence 、同步、原子操作等功能。在精度不足或者发生溢出时必须使用双精度浮点或者更长的整数类型。

3 .优化显存访问,避免显存带宽成为瓶颈。在显存带宽得到完全优化前,其他优化不会产生明显结果。显存访问优化中可以使用的技术包括:

将可以采用相拓扑实现的几个 kernel 合并为一个,减少对显存访问;

除非非常必要,应该尽力避免将线程私有变量分配到 local memory ;

为满足合并访问,采用 cudaMallocPitch() 或者 cudaMalloc3D() 分配显存;

为满足合并访问,对数据类型进行对齐(使用 __align );

为满足合并访问,保证访问的首地址从 16 的整数倍开始,如果可能,尽量让每个线程一次读 32bit ;

在数据只会被访问一次,并且满足合并访问的情况下可以考虑使用 zerocopy ;

在某些情况下,考虑存储器控制器负载不均衡造成分区冲突的影响。

使用用有缓存的常数存储器和纹理存储器提高某些应用的实际带宽。

4 .优化指令流。由于编译器会进行一些优化,而编译过程基本无法控制,所以指令流优化不一定能获得立竿见影的效果。但是,仍然有一些准则可以参考,包括:

如果只需要少量线程进行操作,那么一定记得要使用类似 (if threadID < N) 的方式,避免多个线程同时运行占用更长时间或者产生错误结果;

在不会出现不可接受的误差的前提下采用 CUDA 算术指令集中的快速指令;

使用 #unroll ,让编译器能够有效的展开循环;

采用原子函数实现更加复杂的算法,并保证结果的正确性;

避免多余的同步;

如果不产生 bank conflict 的算法不会造成算法效率的下降或者非合并访问,那么就应该避免 bank conflict 。

5 .资源均衡。调整 shared memroy 和 register 的使用量。为了使程序能够获得更高的 SM 占用率,应该调整每个线程处理的数据数量、 shared memory 和 register 的使用量。这需要在三者间进行调整。当每个线程处理的子任务间有一定的公用部分时,可以考虑让一个线程处理更多的数据来提高指令流和访存效率。为了获得更高的 SM 占用率,必须控制每个线程的 shared memory 和 register 的使用量。通过调整 block 大小,修改算法和指令,以及动态分配 shared memory ,都可以提高shared 的使用效率。而减小 register 的使用则相对困难,因为 register 的 使用量并不是由内核程序中声明的变量大小决定,而是由内核程序中使用寄存器最多的时刻的用量决定的。由于编译器会尽量减小寄存器的用量,因此实际使用的寄 存器有可能会小于在程序中声明的量。但是在通常情况下,由于需要暂存中间结果并且一些指令也需要更多的寄存器,一般寄存器用量都大于内核程序中声明的私有 变量的总数量。使用以下方法可能可以节约一些寄存器的使用:使用 shared memory 存储变量;使用括号更加明确的表示每个变量的生存周期;用对 [u]long 型或的处理代替对两个相邻的 [u]short 型或者四个相邻的 [u]char 型的处理;使用占用寄存器较小的等效指令代替原有指令,如用 __sin 函数代替 sin 函数。不过,由于不能对编译器的优化过程进行控制,即使使用了这些手段也不一定能减小寄存器的用量。值得注意的是,采用 --maxrregcount 编译选项只是让编译器将超出限制的私有寄存器分配在 local memory 中,造成较大的访存延迟。

6. 与主机通信优化。由于 PCI-E 带宽相对较小,应该尽量减少 CPU 与 GPU 间传输的数据量,并通过一些手段提高可用带宽。可用的技术包括:

使用 cudaMallocHost 分配主机端存储器,可以获得更大的带宽;

一次缓存较多的数据,再一并传输,可以获得较高的实际带宽;

需要将结果显示到屏幕时,直接使用与图形学 API 互操作功能完成,避免将数据传回;

       使用流式处理隐藏与主机的通信时间。

       对于用 CUDA C 语 言编写的程序,按照上述流程进行优化,是比较适合的。不过在优化中,各种因素往往相互制约,很难同时达到最优。读者需要按照要处理问题的类型,瓶颈出现的 部位和原因具体分析。按照预想进行优化也不是总能达到预想中的效果,有时优化手段反而会降低性能。在实践中,仍然需要不断实验各种优化方法,在不断试验与 迭代中一步步排除不可行的方案,最后得到一个比较理想的方案。

使用 CUDA C 并不总是能够编译到最优的指令。如果确实必要,可以用 PTX 优化程序中最关键的步骤。

除此以外,还要灵活采用宏和模版,动态分配内存和显存以及动态划分数据等手段提高程序的通用性,并在处理不同规模、不同数据类型的问题时选用不同的优化策略。

在 2010 年将要推出的新处理器中,各种存储器的带宽和延迟会有一定的调整,大部分指令的吞吐量也会有非常显著的提升。随着 GPU 架构的进一步改进和编译器性能的不断提高,下一代 GPU 上的 CUDA 程序优化工作会变得更加简单。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值