聊聊GPU利用率那些事

virtaitech

于 2021-07-27 18:06:11 发布

阅读量8.6k

点赞数

文章标签： ai gpu 人工智能云服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49711991/article/details/119149532

版权

本文探讨了GPU利用率的重要性，介绍了监控GPU利用率的工具如nvidia-smi和DCGM，以及如何通过MIG和MPS提高GPU利用率。此外，还提及了趋动科技的OrionX产品，它提供了更细粒度的资源切分和安全性，以极致提升GPU利用率。

摘要由CSDN通过智能技术生成

引言

众所周知，GPU本身的计算能力是越来越强大，特别是新一代的NVIDIA AMPERE架构发布之后，又一次刷新了大家对AI算力的认知。目前，确实有不少大规模分布式训练对更大算力的渴求是极其强烈的，比如语音、自然语言处理等。

但是，我们也不可否认还有非常多的应用场景对算力的需求不大，比如：

AI推理场景，基本都是在线实时计算，要求延时低，batchsize小，计算量不大。
AI开发机场景，团队内部共享GPU，对算力要求低。

这些场景的分布非常广泛，在这些场景下，AI应用是无法把GPU强大的计算能力全部发挥出来的。所以，长期以来，很多用户的GPU利用率都不高，基本都只有10%-30%。

一、什么是GPU利用率

GPU利用率是反馈GPU上各种资源繁忙程度的指标。GPU上的资源包括：

GPU core：CUDA core, Tensor Core ,integer, FP32 core，INT32 core等。
frame buffer：capacity, bandwidth。
其他：PCIe RX / TX, NVLink RX / TX, encoder和decoder等。

通常，我们说GPU利用率泛指GPU core的利用率。

二、监控GPU利用率的方式

①一般采用nvidia-smi或NVML。这两个工具在GPU驱动里面自带，使用方便，因此应用最为广泛。<

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。