基于Volta MPS执行资源配置下的多容器共享GPU性能测试

置顶

beckham999221

已于 2023-11-09 15:58:26 修改

阅读量7.7k

点赞数 3

分类专栏： GPU Docker 深度学习文章标签： GPU 虚拟化 Docker CUDA MPS

于 2019-01-25 14:04:42 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/beckham999221/article/details/86644970

版权

基于Volta MPS执行资源配置下的多容器共享GPU性能测试

终于有机会再V100上做实验啦，接上篇博客《你真得了解多个docker容器如何共享GPU么？》，继续在GPU共享的道路上徘徊摸索。。。

一、实验背景

一般而言，多容器共享GPU会引发资源竞争和浪费的问题，不仅GPU利用率不高，也无法保证QoS。当使用NVIDIA MPS时，MPS Sever会通过一个CUDA Context管理GPU硬件资源，多个MPS Clients会将它们的任务通过MPS Server传入GPU，从而越过了硬件时间分片调度的限制，使得它们的CUDA kernels实现真正意义上的并行。特别地，Volta MPS可以兼容docker容器，并且支持执行资源配置（即每个Client context只能获取一定比例的threads），提高了多容器共享GPU的QoS。

二、实验目的

通过实验主要回答以下三方面问题：

开启/关闭MPS对多容器共享GPU的性能影响如何？
Volta MPS的执行资源配置效果如何？
多容器共享GPU的公平性如何？

三、实验环境

系统：Ubuntu 18.04.1 LTS

内核：4.15.0-43-generic

显卡：Tesla V100-PCIE-16GB

软件：CUDA 10.0, NVIDIA-DOCKER 2.0, DOCKER 1.39, NVIDIA Drivers 410.48, gcc 7.3.0

四、实验步骤

开启与关闭MPS

第一部分，我们主要研究开启和关闭MPS对GPU性能的影响。默认情况下，GPU是没有开启MPS的，每个CUDA程序会创建自己的CUDA Context来管理GPU资源，并以时间分片的方式共享GPU。开启MPS后，在需要的时候，MPS control daemon会启动一个MPS Server，监听任务请求。

开启MPS的方式如下

最低0.47元/天解锁文章

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
10
评论
基于Volta MPS执行资源配置下的多容器共享GPU性能测试

基于Volta MPS执行资源配置下的多容器共享GPU性能测试终于有机会再V100上做实验啦，接上篇博客《你真得了解多个docker容器如何共享GPU么？》，继续在GPU共享的道路上徘徊摸索。。。一、实验背景一般而言，多容器共享GPU会引发资源竞争和浪费的问题，不仅GPU利用率不高，也无法保证QoS。当使用NVIDIA MPS时，MPS Sever会通过一个CUDA Context管理...
复制链接

扫一扫

专栏目录

beckham999221 CSDN认证博客专家 CSDN认证企业博客

码龄15年

10: 原创

26万+: 周排名

154万+: 总排名

4万+: 访问

: 等级

531: 积分

10: 粉丝

10: 获赞

16: 评论

86: 收藏

私信

关注

热门文章

分类专栏

统计学习方法 1篇
机器学习 2篇
有监督学习 2篇
理论基础 1篇
教育技术学 4篇
GBDT 1篇
RF
XGBoost
GPU 2篇
Docker 2篇
深度学习 2篇
MPS
mysql 1篇
linux 1篇

最新评论

基于Volta MPS执行资源配置下的多容器共享GPU性能测试
区区代码。: 楼主您好，请问有实验代码吗？如果显存已经占满了，还继续部署任务，会发生什么呢？任务部署不上去，还是先前的任务挂掉呢？
基于Volta MPS执行资源配置下的多容器共享GPU性能测试
weixin_37075302: 您好请问有多容器在MPS下共享GPU的详细设置过程吗？我开启后，在容器里一直无法启动MPS
基于Volta MPS执行资源配置下的多容器共享GPU性能测试
Homura233: “注意，nvidia-smi命令提供的GPU利用率与SMs活跃的数量和代码的繁忙程度无关。”请问您是使用什么工具测量GPU利用率的呢？是用nvidia-smi吗？如何实时获得GPU的利用率呢？
基于Volta MPS执行资源配置下的多容器共享GPU性能测试
铭yun: 你好，我在运行的时候总是会报资源不足的错误，Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources，请问这是什么原因，一个物理机一块GPU，两个docker容器，是资源竞争的原因吗。
rm -rf的惨痛教训之误删bin文件夹
Tisfy: 辛苦辛苦

大家在看

最新文章

目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。