本周六!本周六!本周六!
DLRover 将举办首次开放日活动!
欢迎更多小伙伴参与共建合作
DLRover 是什么
DLRover(Distributed Deep Learning System)是蚂蚁集团 AI Infra 团队维护的开源社区,是基于云原生技术打造的智能化分布式深度学习系统。DLRover 使得开发人员能够专注于模型架构的设计,而无需处理任何工程方面的细节,例如硬件加速和分布式运行等。目前,DLRover 支持使用 K8s、Ray 进行自动化操作和维护深度学习训练任务。
想了解 DLRover 的更多信息,欢迎报名参加开放日活动!
扫描上方二维码
或点击底部“阅读原文”参与报名哦!
活动概况
活动主题
大模型时代的 AI 基建
活动时间
2023 年 07 月 08 日(周六)13:00
活动地点
北京市朝阳区东三环环球金融中心(WFC)
东塔 9F 大厅
活动议程
议题详情
01
蚂蚁 AI 基建(训练)智能化实践与思考
分享嘉宾:沙剑
蚂蚁集团高级技术专家
DLRover 项目技术负责人
AI 基建旨在为 AI 研究、开发和应用提供基础设施、工具和算法等支持。作为开场,主要介绍 DLRover 项目的设立背景和发展愿景,阐述蚂蚁在 AI 基建智能化实践与思考。
02
DLRover:蚂蚁大规模智能分布式训练系统
分享嘉宾:王勤龙
蚂蚁集团技术专家
AI Infra 团队核心成员
本议题主要介绍 DLRover 云上弹性容错的分布式训练架构。包含介绍 DLRover 的容错如何提高大规模分布式训练的稳定性,降低人工成本;讲解 DLRover 分布式训练的资源自动扩缩容功能如何降低分布式训练门槛、提升训练性能和集群效能。
03
ACK:云上面向 AI 的 Infrastructure
分享嘉宾:霍智鑫
阿里云云原生研发工程师
本议题将介绍阿里云 ACK 项目。分享 ACK 拥有的面向 AI 应用的底层能力优势、ACK 云原生 AI 套件可以提供给 AI 应用的全方面的价值,以及其中我们在弹性训练方面做的工作与现有的相关能力,包括如何结合 DLRover 等其他弹性训练框架做的覆盖尽可能多的 AI 应用场景,降低用云成本提升用云效能。
04
昇思 MindSpore+昇腾超大规模 AI 实践
分享嘉宾:苏腾
华为 MindSpore 架构师
MindSpore 超大规模 AI 系统的技术负责人
昇思 MindSpore 构建了多维度混合并行、多维度内存优化、图算融合等关键技术。并从 2021 年开始,孵化了 20+大模型,6 个千亿参数规模以上的大模型。本次分享将从 MindSpore 大模型实践出发,介绍 MindSpore 超大规模 AI 关键技术,以及如何使用这些关键技术训练大模型,结合昇腾集群解决大模型大集群的训练难题。
05
DeepRec:面向推荐场景的高性能深度学习框架
分享嘉宾:彭陶
阿里云技术专家
DeepRec 项目核心成员
本议题主要介绍 DeepRec 的前世今生,包括关键技术,业务落地以及未来展望。分享在业务场景之下如何通过 DeepRec 带来性能的优化,并且使用 EV 等丰富的功能提升效果。
06
SW/HW Solutions for Generative AI
分享嘉宾:翟健
NVIDIA 深度学习解决方案架构师
NVIDIA NeMo™ 框架是 NVIDIA AI 平台的一部分,是一個端到端的云端原生企业级框架,可用于建立、定制和部署具备数十亿个参数的生成式 AI 模型。本次分享将重点介绍 NeMo Framework,以及 GPU 硬件在支撑 LLM 领域的基础架构构建的能力,了解 NVIDIA NeMo Framework 的功能和优化特性。
07
GLake:蚂蚁高性能 GPU 显存管理器
分享嘉宾:张锐
蚂蚁集团高级开发工程师
AI Infra 团队核心成员
AI Infra 团队在 AI 大模型领域不断探索发展、开发创新。本议题主要介绍 GLake 项目,了解 GLake 的架构以及分享如何用 GLake 显著减少模型显存,增大 batch_size。
活动周边
欢迎大家到 DLRover 开放日活动现场互动,我们准备了精美的周边奖品(贴纸、文化衫)将在现场送给大家哦:
交通指引
自驾前往
开车行进至“环球金融中心”
在大楼南侧地下停车场进入
地铁前往
地铁 10 号线至“金台夕照”站
从 A 口出,步行 3-5 分钟,从环球金融中心南门进入
了解更多
DLRover Star 一下✨:
https://github.com/intelligent-machine-learning/dlrover