查看gpu使用率 nvidia_【NVIDIA GTC China】一份适合在校大学生看的讲座清单，日后应聘GPU相关工作就靠它了...

最新推荐文章于 2023-10-18 15:47:54 发布

weixin_39616222

最新推荐文章于 2023-10-18 15:47:54 发布

阅读量469

点赞数

文章标签：查看gpu使用率 nvidia

一年一度的NVIDIA GTC China将要在12月15日开始啦，

NVIDIA GTC (GPU 技术大会) 是一系列全球盛会，广纳当今计算领域最热门话题的相关培训和见解，并为开发者们创造与顶级专家交流的机会。

与往年不同，因为疫情关系，这次GTC全部都是线上举行，而且全部免费。

人工智能和超算领域各路英雄豪杰的精彩技术讲座即将扑面而来。

如果这次你错过了NVIDIA DLI收费课程，就不要再错过这些技术干货了！

我知道这个月对于很多在校大学生来说也是很紧张，毕竟面临期末考试，所以Lady我在280+个技术讲座里，特别整理了一份适合大学生聆听的讲座清单，节省同学们的时间。而选择的标准是：

1.基于NVIDIA原生技术和产品；

2.涵盖热门领域：自主机器/边缘计算、深度学习平台、GPU虚拟化、高性能计算、云计算/互联网；

相信了解这些GPU发展的关键技术，对大家日后要面试很多知名公司GPU开发相关职位是有帮助的，毕竟这些公司很多的服务和产品几乎都离不开NVIDIA的GPU。

12 月 15 日

CUDA 11 新特性介绍 [CNS20940]

基于安培架构的 NVIDIA A100 GPU 给并行计算带来了很大的性能提升。和安培架构一起发布的 CUDA 11 也提供了很多新的特性。在这个报告中，我们将介绍 CUDA11 的如下新特性：1. 新的 A100 GPU 介绍：我们会简单介绍安培架构的新硬件特性。2.多实例 GPU(Multi-Instance GPU)：MIG 可以将一个 NVIDIA A100 GPU 划分为多个 Qos 确定的 GPU 实例。3. 编程方面的新特性：3.1 异步数据传输：A100为数据从全局内存到共享内存的传输提供了硬件加速。3.2 细粒度同步：为 block 内线程子集提供新的同步方式 3.3 针对 L2 缓存的 residency control：CUDA 11 新增了对于 L2 缓存的管理 API，可以为不同访问特性的数据提供不同的 L2 缓存机制。

加速基于 GPU 的 Top-K 计算 [CNS20315]

Top-K 计算的目标是从候选数据中选取最大或最小的 K 个数据。作为一种通用的基础计算，Top-K 广泛应用在推荐系统、检索系统的召回模块中。当候选数据较多时，使用 GPU 可以显著地加速 Top-K 计算。我们对比了当前主流的 Top-K 算法和 GPU 实现，并对这些算法进行了优化，大大提升了 GPU 实现的性能。

MULTI-INSTANCE GPU (MIG) 深度学习最佳用法示例

Multi-Instance GPU (MIG)是 NVIDIA 最新一代 GPU 如 A100 的一大新特性，它可以帮助用户最大化单个 GPU 的利用率，如同拥有多个更小的 GPU，从而支持多个用户同时共享单个 GPU 或单个用户同时运行多个应用。我们将分享如何管理 MIG，以及如何使用 MIG 支持多个深度学习应用同时运行，以 ResNet50、BERT 等为例，展示训练、微调、推理 (Triton) 等。你可以采用 MIG 提升单个 A100 的 GPU 利用率，也可以扩展到多个 A100 或多个节点。

网络计算技术加速 GPU 应用 [CNS20819]

RDMA 技术已经成为提高网络性能和数据中心扩展性的必不可少的技术，RDMA 技术可以实现CPU和操作系统 Kernel 的 Bypass，直接在 CPU 或 GPU 的 memory 之间建立通信通路，实现通信的高带宽、低延迟，并提升了系统的可扩展性。在现代 GPU 的应用当中，RDMA 成为提升性能的关键，从 Ring 通信、Tree 通信，再到现在热门的 SHARP 通信以及 GPU 和存储之间的GDS 通信，都依赖于 RDMA 来提供性能保障。在本报告中，将会介绍 RDMA 的工作原理和编程接口，为广大的 RDMA 爱好者能充分利用 RDMA 优化 AI 平台的性能提供建议。

深入理解 Nsight System与Nsight Compute 性能分析优化工具 [CNS20632]

学习如何使用 NVIDIA GPU 的性能分析工具 Nsight System 和 Nsight Compute 对 GPU 程序进行性能分析.深入研究性能分析工具中各项性能指标如何反应了 GPU 硬件单元的真实工作状态.以典型的 GPU 程序优化过程为例,学习如何利用工具寻找、分析 GPU 程序的瓶颈并进行迭代优化.

12月16日

英伟达以太网赋能下一代边缘云网络 [CNS20150]

介绍如何用英伟达以太网ESF方案快速搭建智能边缘云计算网络的基础设施。本演讲介绍了英伟达对于边缘云计算网络的架构和分析，介绍如何采用业界领先的高性能，低延迟的小型以太网交换机和ESF解决方案为用户快速搭建小型化，灵活，基于RoCE高性能的边缘云网络。该方案可应用于远程办公，CDN，电信边缘，自动驾驶等基于GPU的边缘云网络。

NVIDIA ISAAC 机器人平台- 从仿真到部署的机器人解决方案 [CNS20592]

NVIDIA ISAAC 机器人平台包含了 ISAAC SDK 和 ISAAC SIM，提供了了从仿真建模到边缘端部署的全套机器人解决方案，开发者利用 ISAAC 机器人平台可以快速搭建机器人，完成世界建模，机器人建模，感知，导航，控制等模块的开发和部署。ISAAC 平台支持多种控制方式的底盘和多种传感器，并支持 ROS 和 Python 的接入。

基于 Jetson 的点云加速及在自主机器的应用 [CNS20689]

激光雷达现在广泛使用于自主机器领域，对点云的加速需求也越来越多。本次演讲会介绍 NVIDIA 在 Jetson 平台上基于 CUDA 加速的点云算法以及在行业的应用。

12月17日

NVIDIA Ampere 构架带来 vGPU 新特性 [CNS20364]

Nvidia 助力远程工作A100 新特性介绍nvidia vgpu 在 A100 上如何工作

虚拟化场景下 GPU 应用的网络优化 [CNS20787]

探讨如何在虚拟化环境下，利用网络技术来优化系统性能。随着 GPU 的性能越来越高和虚拟化技术的发展，对 GPU 之间的通讯要求也越来越高。GPU 之间的网络通信性能，关系到整个数据中心中的 GPU 集群性能水平。应用 SRIOV 技术，可以实现虚拟化环境中 GPU 间的 GPUDirect RDMA，使得 GPU 之间可以直接通讯。通过网络层面的的优化，提升虚拟化应用集群效能。

从系统层面提升GPU利用率 [CNS20856]

从系统层面，介绍几种 NVIDIA 提升 GPU 利用率的方法，以帮助你在数据中心更好的部署 GPU 。NVIDIA GPU 在 AI 时代扮演着举足轻重的作用，已经在各大互联网公司大规模集群化的完成部署，服务着各式各样的 AI 应用。同时，GPU 作为珍贵的 AI 计算资源，如何更进一步的用好 GPU 、提升 GPU 的使用率，也是一个很有意义的话题。此次报告着重从系统级的层面，结合 NVIDIA 的一些解决方案，介绍了几种提升 GPU 利用率的方法以及一些测试案例。其中会重点覆盖 MPS(Multi-Process Service) 和 MIG (Multi-Instance GPU) ，结合一些测试案例，从不同的利用率指标上来量化这些解决方案的优势。另外，也会简单介绍 TRITON 和 vGPU 的方式，是如何提升 GPU 使用。这几种提高 GPU 利用率的方法各有侧重，亦有可结合之处。此报告的目的是希望客户能结合自己的场景特点，利用这些方法中的一种或多种，来优化自己的 GPU 部署，提升 GPU 的利用率。

智能网络加速5G云服务 [CNS20567]

随着 5G 业务的发展和部署，边缘业务和云化逐渐对网络能力提出更高要求。智能网卡技术在 5G 的应用得到了很多的关注。智能网卡提供了提供作为卸载核心网业务逻辑到硬件的加速手段，在云化 SDN 和容器场景下，智能网卡通过流表卸载和业务合作对云服务实现了智能化和高速化转型能力，此外，无损网络作为电信的高性能业务场景为存储和AI业务提供了更好的低时延高带宽能力。

使用现代网络理念，构造开放数据中心 [CNS20867]

将使得听众理解和掌握现代数据中心网络的架构及关键技术。内容涵盖 CLOS 网络架构的理念及在数据中心的实践，BGP 路由协议基础介绍，BGP 在数据中心网络的实现，Routing on Host 的介绍，以及CumulusLinux 的开放性。现代数据中心网络将为 GPU 计算提供高性能的基础设施。

12月18日

超算集群网络管理神器 - UFM Cyber-AI [CNS20982]

超级计算机承担着大规模并行计算的任务，不可预期的网络故障可能会造成计算任务的意外终止。英伟达的UFM平台可以提供对 InfiniBand 超算集群的网络行为进行完整管理、监控和性能优化。最新推出的 UFM Cyber-AI 平台更运用AI分析技术检测安全威胁和运行问题并预测网络故障，能够大幅减少 InfiniBand 数据中心的停机时间，提升超算中心的服务能力。本节将介绍最新的 UFM Cyber-AI 新技术能力，及如何使用这些新技术实现对超算集群的主动管控。

新型超级计算中的高速互联技术 [CNS20152]

本演讲将聚焦高性能计算和人工智能融合所需要的先进的网络互联技术，参会者可以了解在科学计算、云端、边缘以及自主机器等领域， InfiniBand 高速互联网络特性和独特的网络计算能力以及为客户带来的益处。GPU 、 CPU 和 DPU 组成的数据中心处理单元是新的扩展单元， InfiniBand 是连接这些处理单元的最佳选择，构成 SuperPOD 或超级计算机系统，解决普通计算机无法解决的难题，提升各行各业的竞争力，在虚拟化、分布式横向扩展和可组合微服务三个技术方向上，帮助客户实现性能最优化和线性扩展以及最高投资回报。报告还介绍 InfiniBand 在极端天气预报、 MCAE 、智能勘探、药物发现、即时金融防欺诈等行业的成功案例。

HPC应用性能分析和调优 [CNS20767]

超级计算领域的集群规模和算力一直在快速增长，在这些集群中，主要的编程模型是消息传递接口(MPI)。对 MPI 库的优化，在提升资源使用效率和应用扩展性，完全释放集群性能方面起着关键作用。为了获得最大的性能，需要针对集群中典型应用的性能热点进行优化，以加速计算并降低开销。因为 InfiniBand 互连提供了一系列提升应用扩展性的关键特性，包括网络计算(In-Network Computing)、远程数据内存访问(RDMA)、点对点通信协议卸载、聚合通信协议卸载等，有效地解决了超级计算 MPI 应用的扩展问题，并被众多大型超级计算集群选择为标准互连。。在本环节中，演讲嘉宾将解读网络加速 HPC-AI 集群应用的关键技术，介绍分析集群中 MPI 应用性能热点的经典方法，示范如何应用网络卸载计算技术针对性能热点进行调优。

同学们可以先注册报名，报名后进入https://www.gtcevent.cn/session-catalog/

选中讲座收藏，届时可以看回放！

所以报名很重要！！只有报名了，登陆后才能收藏！