CUDA Toolkit 12.3 版本

CUDA Toolkit 12.3 版的功能包括:

CUDA 和 CUDA Toolkit继续为多个领域内的加速计算应用提供支持,这些领域包括:数据科学、机器学习和深度学习、用于训练和推理的大语言模型的生成式AI、图形和模拟、科学计算等。CUDA 为解决世界上最复杂的计算问题提供强大的技术支持。

NVIDIA Nsight 开发者工具 

CUDA Toolkit 12.3包含最新版本的 NVIDIA Nsight 开发者工具,可帮助您在 NVIDIA Grace Hopper 平台上优化和调试CUDA 应用程序。

Nsight Compute

Nsight Compute 为 CUDA 内核提供了详细的评测和分析,2023.3 版本随 CUDA Toolkit 12.3 一起首次亮相。该版本包括了可以提高性能的功能,以及数据收集和分析的功能。

新的 PM Sampling功能添加了与时间相关的内核性能数据。以前,大多数性能指标都是在整个内核中聚合的。这个常用的功能可以帮助用户发现内核中分阶段出现的性能问题以及诸如尾部效应之类的时间效应(图 1)。它包含在 –full 指标集中。它可以添加为 GUI 中的 PM Sampling部分,或者通过将 –section PmSampling 添加到 CLI。
 

Screenshot of Nsight Compute kernel profiler.

图 1:Nsight Compute PM Sampling

Nsight Compute 2023.3版本还引入了跨配置文件比较源代码更改的能力,以了解修改如何影响源代码级别的性能。要使用此功能,请将一份报告设置为基线,然后单击另一份报告中的“来源比较”按钮,以查看突出显示的来源差异和相关的性能指标。

编译内核时使用 –-lineinfo 标志以启用源解析以及是否就地修改了源文件。使用导入源选项或 –import-source 标志来保留原始源代码。

要了解有关 Nsight Compute 2023.3 版本的更多功能,请参阅 Nsight Compute 入门

Nsight Systems

CUDA Toolkit 12.3 版本还包括 Nsight Systems 2023.3,这是一个性能调优工具,可以在统一的时间线上分析硬件指标和 CUDA 应用程序、API 和库。

最新版本的 Nsight 系统 引入了对 NVIDIA Grace CPU 的支持,使您能够在应用程序性能的背景下深入研究Grace CPU 周期。Nsight Systems 2023.3 还添加了新功能,包括通过GUI 进行网络接口卡(NIC)分析。

作为数据在服务器硬件单元之间移动的主要方式,了解网络中节点间的通信将有助于诊断瓶颈。Nsight Systems 能够监控 NIC 吞吐量,以图表形式发送和接收的字节数。如果 NIC 的等待时间延长,这强烈表明节点间的网络需要优化。Nsight Systems还可以分析 NVIDIA Quantum InfiniBand 交换机的吞吐量。

要了解更多关于 Nsight Systems 2023.3 的功能,请参阅 Nsight Systems入门。如需深入了解 Nsight Systems 如何支持数据中心规模的开发,请参阅 使用 NVIDIA Nsight Systems加速数据中心和 HPC 性能分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值