INFOCOM 2021最佳论文奖:一种新颖的分布式算法提高在GPU集群上训练大型AI模型的效率

INFOCOM 2021最佳论文:Exploiting Simultaneous Communications to Accelerate Data Parallel Distributed Deep Learning
论文地址:https://www.aminer.cn/pub/60af3b429e795e6b8e4edd1f

论文由香港浸会大学褚晓文教授、施少怀博士及香港科技大学李波教授合著。训练AI大模型需要消耗大量的计算资源,例如训练一次拥有1750 亿个参数的GPT-3语言模型需要355个GPU,成本高达460万美元。因此,如何缩短AI大模型的训练时间是当前分布式机器学习的一个热点话题。

本次获奖论文提出了一种新颖的分布式算法来提高在GPU集群上训练大型AI模型的效率。通过理论分析和实验,论文发现利用并发的All-Reduce通信可以有效提高小张量数据的通信效率。研究团队同时利用张量融合和并发通信两种不同的优化策略,提出新的数学优化思路,并找到了有效的解决方案,称为ASC-WFBP。
在这里插入图片描述

团队在具有32个GPU和10Gbps以太网的8节点GPU集群上进行了大量的实验,并在四个流行的AI模型上进行了性能评估。
在这里插入图片描述

实验结果表明ASC-WFBP相比不进行张量融合的基线方法提高约1.09-2.48倍的速度,而相比最先进的张量融合解决方案,也可以提高1.15-1.35倍的速度。在不影响训练精度的前提下,大幅降低了训练成本。

AMiner,让AI读懂Science:https://www.aminer.cn/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值