【活动预告】2024 全球机器学习技术大会|大模型训练故障自愈技术与实践分享

2024 全球机器学习技术大会将于 4 月 25、26 日在上海环球港凯悦大酒店举行!多位大模型领域的专家将云集于此,共同探讨人工智能前沿发展和行业最佳实践。

来自蚂蚁集团 DLRover 开源负责人王勤龙将在 2024 全球机器学习技术大会上发表《DLRover 训练故障自愈:大幅提升大规模 AI  训练的算力效率》主题演讲,分享如何在千卡规模大模型训练作业下,快速故障自愈。如果你在训练大模型过程中,训练进度经常被机器故障拖延,这次演讲绝对不容错过!

议题介绍

当前大规模语言模型训练需要大量的加速卡来训练,如 GPU 等。由于 GPU 机器的故障率较高,频繁的故障会导致训练中断、计算浪费和集群空转,从而造成大量的时间和算力浪费。为此,DLRover 开源了训练故障自愈技术,通过快速的节点状态检测、弹性扩缩容、动态组网和Flash Checkpoint 等技术,最大程度地降低故障导致的算力浪费。

DLRover 支持在 10 分钟内全自动定位到任意故障机器,让运维同学从繁琐且耗时的故障分析与定位中解锁出来。DLRover 还提供了 Flash Checkpoint 技术, 支持在 1 秒之内导出千亿参数级别大模型的 Checkpoint,这一特性支持在训练过程中高频保存 Checkpoint。算法工程师再也不用担心故障导致训练白跑,训练进程能够迅速恢复到最近的稳定状态继续进行。

DLRover 提供的 Flash Checkpoint 还对大模型训练与微调的常用框架提供支持,如 Megatron-LM、DeepSpeed、FSDP、HuggingFace Transformers 中的 Trainer 等,算法开发人员都可以实现“开箱即用”。

此次演讲除了介绍 DLRover 背后的技术原理,还会介绍 DLRover 的使用案例和 DLRover 社区大模型的实战效果。

讲师介绍

王勤龙,长期在蚂蚁集团从事 AI 基础设施的研发,主导了蚂蚁分布式训练的弹性容错与自动扩缩容项目的建设。先后参与多个开源项目,如 ElasticDL和 DLRover,开放原子基金会 2023 活力开源贡献者,蚂蚁集团2022 T-Star 优秀工程师。目前为蚂蚁 AI Infra 开源项目 DLRover 的架构师,专注于打造稳定的、可扩展的和高效的大规模分布式训练系统。

🌟扫描下方二维码进行活动报名:

图片

关于 DLRover

DLRover(Distributed Deep Learning System)是蚂蚁集团 AI Infra 团队维护的开源社区,是基于云原生技术打造的智能分布式深度学习系统。DLRover 使得开发人员能够专注于模型架构的设计,而无需处理任何工程方面的细节,例如硬件加速和分布式运行等;开发深度学习训练的相关算法,让训练更高效、智能,例如优化器。目前,DLRover 支持使用 K8s、Ray 进行自动化操作和维护深度学习训练任务。更多 AI Infra 技术请关注 DLRover 项目。

加入 DLRover 钉钉技术交流群:31525020959

DLRover Star一下:

https://github.com/intelligent-machine-learning/dlrover

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值