[转载] mig (Multi-Instance GPUs) 多实例GPU 是什么

最近白嫖几小时GPU:实例名称叫做 mig-3g.20gb
我很好奇mig是啥,群里有老铁说是拆分卡

查了一下叫多实例GPU,以下内容摘自NVIDIA官方参考资料

1. 概述

多实例 GPU (MIG) 扩展了每个 NVIDIA H100、A100 及 A30 Tensor Core GPU 的性能和价值。

MIG 可将 GPU 划分为最多达七个实例,每个实例均完全独立于各自的高带宽显存、缓存和计算核心。如此一来,管理员便能支持所有大小的工作负载,且服务质量 (QoS) 稳定可靠,让每位用户都能享用加速计算资源。

2. 优势概览

在这里插入图片描述

a. 扩展 GPU 的应用范围

借助 MIG 技术,您可以在单个 GPU 上获得多达原来 7 倍的 GPU 资源。MIG 为研发人员提供了更多的资源和更大的灵活性。

在这里插入图片描述

b. 优化 GPU 利用率

MIG 允许您灵活选择许多不同的实例大小,从而为每项工作负载提供适当规模的 GPU 实例,最终优化利用率并使数据中心投资充分发挥成效。

在这里插入图片描述

c. 同时运行工作负载

凭借 MIG,您能以确定性延迟和吞吐量,在单个 GPU 上同时运行推理、训练和高性能计算 (HPC) 工作负载。与时间分片不同,各工作负载并行运行,能够实现高性能。

3. 技术原理

若不使用 MIG,则同一 GPU 上运行的不同作业(例如不同的 AI 推理请求)会争用相同的资源。显存带宽更大的作业会占用其他作业的资源,导致多项作业无法达成延迟目标。借助 MIG,作业可同时在不同的实例上运行,每个实例都有专用的计算、显存和显存带宽资源,从而实现可预测的性能,同时符合服务质量 (QoS) 并尽可能提升 GPU 利用率。

在这里插入图片描述

(a). 根据需要置备和配置实例

一个 GPU 可划分成不同大小的 MIG 实例。例如,在 40GB 的 NVIDIA A100 中,管理员可以创建两个各有 20GB 内存的实例、三个各有 10GB 内存的实例、七个各有 5GB 内存的实例。或者可以创建混合在一起的实例。

管理员还可以动态地重新配置 MIG 实例,从而能根据不断变化的用户和业务需求调整 GPU 资源。
例如,白天可以使用七个 MIG 实例进行低吞吐量推理,而夜间可以重新配置为一个大型 MIG 实例,以进行深度学习训练。

(b). 安全地并行运行工作负载

每个 MIG 实例借助专用于计算、内存和缓存的硬件资源,从而能够提供稳定可靠的服务质量 (QoS) 和有效的故障隔离。这样一来,如果某个实例上运行的应用程序发生故障,并不会影响其他实例上运行的应用程序。

这还意味着,不同的实例可以运行不同类型的工作负载,包括交互式模型开发、深度学习训练、AI 推理或高性能计算应用程序等。由于这些实例并行运行,因此工作负载也在同一个物理 GPU 上同时运行,但它们彼此相互独立、隔离。

4. NVIDIA H100 中采用的 MIG

在这里插入图片描述

H100 由 NVIDIA Hopper™ 架构提供支持,通过在多达 7 个 GPU 实例的虚拟化环境中支持多租户、多用户配置,进一步增强了 MIG,在硬件和服务器虚拟化平台级别使用机密计算安全地隔离每个实例。借助每个 MIG 实例的专用视频解码器,在共享基础架构上提供安全、高吞吐量的智能视频分析 (IVA)。借助 Hopper 架构的并发 MIG 分析,管理员可以监控合适规模的 GPU 加速,并为多个用户分配资源。

对于工作负载较小的研究人员,不必租用完整的云实例,他们可以使用 MIG 安全地划出一部分 GPU,同时保证其数据在静态、传输和使用时安全无虞。这提高了云服务提供商的灵活性,以便他们可以根据需要进行定价并抓住小型客户带来的商机。

5. MIG 规格

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值