GPU集群管理系统

最新推荐文章于 2024-03-01 00:30:00 发布

mlxaaa

最新推荐文章于 2024-03-01 00:30:00 发布

阅读量1.5k

点赞数

分类专栏：调度算法集群调度系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/EdiosnMa/article/details/110657467

版权

集群调度系统同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

开源项目

microsoft PAI
alibaba/GPU-scheduler-for-deep-learning，论文“AntMan: Dynamic Scaling on GPU Clusters for Deep Learning”
论文提出了GPU不能充分利用的两个原因：

深度学习的op图不能完全的并行，由于存在数据依赖因此就会产生上下文切换。
资源预留方案的gang调度导致资源空闲。
传统解决GPU利用率低方案的不足：
共享GPU:不能保证作业的性能。
AntMan联合设计了cluster-scheduler和DL framework scheduler。为了共享GPU资源并且尽量减少作业间的干扰，对作业进行了分类：资源保证作业与机会作业。

其中cluster-scheduler:对不同类型作业选择不同的节点，对于资源保证作业就去选择满足资源条件的节点，对于机会作业就会去选择资源利用最低的节点以提高资源利用率。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GPU集群管理系统

开源项目microsoft PAIalibaba/GPU-scheduler-for-deep-learning，论文“AntMan: Dynamic Scaling on GPU Clusters for Deep Learning”的实现
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。