自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 ATorch:蚂蚁开源PyTorch分布式训练扩展库,助你将硬件算力压榨到极致

2023年上半年,蚂蚁AI Infra团队开源了DLRover项目,致力于通过提升深度学习训练过程的智能性,来解决整个系统的提效问题,目前DLRover支持了蚂蚁深度学习系统中的自动资源动态优化与分布式训练稳定性的提升,这次我们也在DLRover项目中开放了内部真实使用的大模型训练加速的工作ATorch,用户通过它可以快速get工业级千亿模型千卡级训练提效体验。

2023-12-26 00:45:09 1148 1

原创 使用 ChaosBlade 验证 DLRover 的弹性和容错的稳定性

通过上述实验,我们使用 ChaosBlade 验证了 DLRover 可以自动恢复各种训练故障,提升分布式训练的稳定性。这样可以大幅降低人工运维成本并提升训练效率。下一篇,我们将介绍 DLRover 自动调整 DataLoader 的 Batch size 来自动提升训练吞吐。

2023-10-18 10:34:34 98 1

原创 KDD 2023 | 蚂蚁“优化器三部曲”之 WSAM

蚂蚁 AI Infra 团队在深度学习最核心之一的优化器方向持续投入与创新,实现了 AI 训练节约资源、加速收敛、提升泛化等目标。我们将推出“优化器三部曲”系列,这是本系列的第一篇。

2023-10-10 17:19:42 129 1

原创 DLRover 在 K8s 上千卡级大模型训练稳定性保障的技术实践

DLRover 目前已经在蚂蚁千亿模型训练训练上落地,将 GPU 故障导致训练暂停时间由 30%降低到了约 12%。我们希望 DLRover 在大规模分布式训练上提供智能化运维功能,降低用户运维成本,提升训练的稳定性。后续我们将介绍 DLRover 项目中的 PyTorch 性能扩展库 ATorch,其旨在提升大规模分布式训练的硬件算力效率 HFU和训练的稳定性,该项目支撑了蚂蚁千亿级大模型千卡规模训练的性能提升。我们欢迎业界开发者关注 DLRover 社区,一起共建开放可复现的大模型训练技术栈方案。

2023-08-02 16:37:26 216 1

原创 Hybrid Embedding:蚂蚁集团万亿参数稀疏 CTR 模型解决方案

我们对比了业内常见的模型结构,如 DeepFM、DLRM、Transformer 等,均在性能不明显下降的情况下达到明显的内存优化。在蚂蚁推荐场景中,目前,Hybrid Embedding 已全面应用于在线学习场景,在性能几乎与 DRAM kv 存储打平的同时,大部分原本被 Embedding 占用的内存资源被优化,ps 节点内存平均节省 50%左右。

2023-07-12 16:28:33 49

原创 VLDB2023|方略:一个交互式的规则研发系统

当前方略已经应用到蚂蚁集团内部的安全风控场景中,也输出给了外部的金融机构。这种算法与专家领域知识相结合的交互式规则研发方式,不仅提高了规则的研发效率,降低了研发成本,也通过探索更广的规则空间提高了规则的准确度。下一步我们会针对推荐算法和评估指标做优化与扩展,以满足更多复杂多变场景的需求。欢迎大家多关注蚂蚁集团 AI Infra 团队后续的工作。

2023-06-28 11:32:37 82

原创 DLRover:云上自动扩缩容 DeepRec 分布式训练作业案例分享

如今,深度学习已广泛应用在搜索、广告、推荐等业务中,这类业务场景普遍有两个特点:1)训练样本量大,需要分布式训练提升训练速度;2)模型稀疏,即模型结构中离散特征计算逻辑占比较高。

2023-04-18 14:50:26 209 1

原创 DLRover:蚂蚁开源大规模智能分布式训练系统

本文整体介绍了 DLRover 的项目动机与核心能力,未来我们会发布一系列文章,来从同步/异步弹性训练,优化策略服务,多种集群和训练框架对接,策略定制开发等多个角度来介绍 DLRover 的更多细节,敬请期待。

2023-03-06 16:04:48 521 1

原创 活动预告 | Triton Meetup 2023 嘉宾阵容

Triton 简介;Triton 重要 Feature 简介和 Roadmap 更新;Triton 的成功案例。

2023-02-14 18:10:45 160 1

原创 Triton Meetup 2022

活动将专注于 AI Infra、推理引擎相关主题,打造 Triton 社区开放共享的技术生态,共同推进 Triton 在国内的推广和应用落地。本次活动,现场邀请到了来自 NVIDIA、蚂蚁集团、美团、京东、蔚来等各大公司的一众技术嘉宾,为大家带来 AI Infra、推理引擎相关的主题分享。参与者们将了解到 Triton 社区的最新技术和发展方向,以及社区相关成员当前的工业级推理引擎技术。2、Triton 在不同场景(搜索、推荐、广告、CV、NLP)的应用、优化方案和收益。

2022-11-08 15:06:00 492

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除