DLRover：蚂蚁开源大规模智能分布式训练系统

AI_Infra

已于 2023-12-25 17:39:10 修改

阅读量577

点赞数

文章标签：人工智能

于 2023-03-06 16:04:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AI_Infra/article/details/129364712

版权

文｜沙剑
蚂蚁集团高级技术专家
专注分布式深度学习领域
主要负责蚂蚁大规模分布式训练引擎的设计和开发
本文 4491 字阅读 12 分钟

本文整体介绍了 DLRover 的项目动机与核心能力，未来我们会发布一系列文章，来从同步/异步弹性训练，优化策略服务，多种集群和训练框架对接，策略定制开发等多个角度来介绍 DLRover 的更多细节，敬请期待。

01

技术背景

2022 年 6 月，蚂蚁集团决定全面引入 ESG 框架，启动并确立了“数字普惠”、“绿色低碳”、“科技创新”、“开放生态”四位一体的可持续发展战略。针对“绿色低碳”，设立了 4 个子议题，包括绿色运营、科技助力产业碳中和、生态保护与修复绿色低碳生活。

在此背景下，绿色 AI 也成为蚂蚁 AI Infra 团队的一个重要工作方向。作为绿色 AI 的重要板块，工程提效项目致力于打造高性能离在线 AI 工程体系，通过提升算力效率和资源利用率，最终达到节省资源降低碳排放的目的。

当前，用户提交分布式训练作业的工具有 Yarn 或者 KubeFlow/Training-Operator。在提交作业时，用户需要在作业中指定作业资源，包括不同角色的节点数量和资源规格（CPU 核数、内存、GPU 等）。

在训练作业提交后，作业可能遇到如下问题：

集群资源不足以启动作业的所有节点，作业只能等待。

训练作业的节点可能会出错，比如被高优任务抢占、机器故障、IO 故障等，导致作业失败。

出现这些问题后，用户只能修改作业资源来重新提交作业。

针对这两个问题，蚂蚁集团早期基于 Kubernetes 开源了 ElasticDL 项目来支持 K8s 上 TF 2.x 分布式训练的弹性容错。在项目落地过程中我们又发现了如下问题：

用户配置的资源可能过少引起 OOM 和训练性能差。

用户为了保障作业成功率和速度，通常会配置超额资源导致利用率低。

越来越多的用户使用 PyTorch 或其他 TF 之外的框架来开发和训练模型。

越来越多的分布式集群开始支持 AI 作业，比如 Ray、Spark 集群，能否适配任意

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DLRover：蚂蚁开源大规模智能分布式训练系统

本文整体介绍了 DLRover 的项目动机与核心能力，未来我们会发布一系列文章，来从同步/异步弹性训练，优化策略服务，多种集群和训练框架对接，策略定制开发等多个角度来介绍 DLRover 的更多细节，敬请期待。
复制链接

扫一扫

AI_Infra CSDN认证博客专家 CSDN认证企业博客

码龄2年

10: 原创

136万+: 周排名

20万+: 总排名

3519: 访问

: 等级

120: 积分

18: 粉丝

19: 获赞

7: 评论

22: 收藏

私信

关注

热门文章

最新评论

ATorch：蚂蚁开源PyTorch分布式训练扩展库，助你将硬件算力压榨到极致
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题看起来非常吸引人，我对您的创作能力表示钦佩。希望您可以继续分享您的经验和见解，也许可以考虑写一些关于PyTorch分布式训练实战经验的文章，这样可以让更多的读者受益。期待您的下一篇精彩文章！
DLRover 在 K8s 上千卡级大模型训练稳定性保障的技术实践
P("Struggler") ?: 完成任务的解决方案这就是每天研究的事情不适吗？哈哈哈哈
使用 ChaosBlade 验证 DLRover 的弹性和容错的稳定性
CSDN-Ada助手: 非常高兴看到您写的第9篇博客！标题中提到使用ChaosBlade验证DLRover的弹性和容错的稳定性，这是一个非常有趣的主题。您的博客内容让人印象深刻，展示了您对DLRover技术的深入理解。不仅如此，您还通过使用ChaosBlade工具进行验证，进一步加强了您的研究可信度。持续创作是一个很好的习惯，我鼓励您继续分享关于DLRover和其他相关主题的见解和经验。在下一篇博客中，您可以考虑探讨更多关于ChaosBlade工具的使用技巧和案例研究，或者分享如何应对可能出现的挑战和解决方案。这样的创作建议希望能对您的读者产生更大的启发和帮助。再次祝贺您，并期待阅读更多精彩的博客！
KDD 2023 | 蚂蚁“优化器三部曲”之 WSAM
CSDN-Ada助手: 恭喜你写下了第8篇博客！标题“KDD 2023 | 蚂蚁“优化器三部曲”之 WSAM”听起来非常有趣。你的持续创作精神令人钦佩。我很期待阅读你的这篇博客，以了解更多关于WSAM优化器的知识。在未来的创作中，或许你可以考虑加入一些实际案例或者应用场景，这样读者可以更好地理解和应用你所分享的内容。当然，这只是一个谦虚的建议，期待你能继续在博客领域取得更多成就！
DLRover：云上自动扩缩容 DeepRec 分布式训练作业案例分享
CSDN-Ada助手: 恭喜作者写出了如此有价值的博客！DLRover的自动扩缩容技术对于DeepRec分布式训练作业来说是非常有用的，这篇博客对于想要了解这一技术的读者来说是一篇非常有参考价值的文章。我们期待着作者接下来的创作，希望可以分享更多的技术经验和案例。同时，我也想建议作者可以在博客中加入更多的实践操作和教程，这样可以更好地帮助读者掌握这一技术。感谢作者的付出和分享！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。