CUDA C最佳实践指南--附录A

最新推荐文章于 2022-02-25 21:57:21 发布

mathsoperator

最新推荐文章于 2022-02-25 21:57:21 发布

阅读量806

点赞数

文章标签： cuda 优化 c 性能优化多线程编译器

附录A 建议和最佳实践

本附录包含这个文档中已经解释的优化建议和最佳实践的汇总。

A.1 性能优化策略综述

性能优化围绕着如下三个基本侧罗展开：

最大化并行执行首先要分析算法，获得尽可能多的数据并行。然后把这些并行性尽可能高效地映射至硬件，这可以通过仔细编写核函数来达到。在更高的层次上，应用也可以通过流技术在设备上或设备与主机之间以显式并发执行的方式最大化并行执行。

优化内存使用首先应该从最小化主机和设备间的数据传输开始，因为这种传输的带宽比内部设备之间的要低很多。然后通过最大化共享内存的使用来最小化核函数对全局内存的访问。有时，最佳的优化甚至是从一开始就通过重新计算需要的数据来避免任何的数据传输。

有效带宽严重依赖于每种内存的访问模式，随访存的顺序变化而变化。接下来要根据最佳访存模式组织内存访问以优化内存的使用。这种优化对于其访存延迟高达数百个时钟周期的全局内存的访问显得特别重要。相比而言，共享内存的访问值得优化的仅仅是避免大的bank冲突。

至于优化指令的使用，那些低吞吐量的算术指令应予避免。在不影响最终结果的前提下建议以精度换速度，比如使用指令代替正规函数或者用单精度代替双精度。最后，由于设备执行的SIMT（single instruction multiple thread，单指令多线程）的特性，对于控制流指令要特别地注意。

A.2 高优先级建议

A.3 中等优先级建议

A.4 低优先级建议

关注