聊聊GPU利用率那些事

本文探讨了GPU利用率的重要性,介绍了监控GPU利用率的工具如nvidia-smi和DCGM,以及如何通过MIG和MPS提高GPU利用率。此外,还提及了趋动科技的OrionX产品,它提供了更细粒度的资源切分和安全性,以极致提升GPU利用率。
摘要由CSDN通过智能技术生成

引言

众所周知,GPU本身的计算能力是越来越强大,特别是新一代的NVIDIA AMPERE架构发布之后,又一次刷新了大家对AI算力的认知。目前,确实有不少大规模分布式训练对更大算力的渴求是极其强烈的,比如语音、自然语言处理等。

但是,我们也不可否认还有非常多的应用场景对算力的需求不大,比如:

  • AI推理场景,基本都是在线实时计算,要求延时低,batchsize小,计算量不大。
  • AI开发机场景,团队内部共享GPU,对算力要求低。

这些场景的分布非常广泛,在这些场景下,AI应用是无法把GPU强大的计算能力全部发挥出来的。所以,长期以来,很多用户的GPU利用率都不高,基本都只有10%-30%。

一、什么是GPU利用率

GPU利用率是反馈GPU上各种资源繁忙程度的指标。GPU上的资源包括:

  • GPU core:CUDA core, Tensor Core ,integer, FP32 core,INT32 core等。
  • frame buffer:capacity, bandwidth。
  • 其他:PCIe RX / TX, NVLink RX / TX, encoder和decoder等。

通常,我们说GPU利用率泛指GPU core的利用率。

二、监控GPU利用率的方式

①一般采用nvidia-smiNVML。这两个工具在GPU驱动里面自带,使用方便,因此应用最为广泛。<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值