INFOCOM 2021最佳论文:Exploiting Simultaneous Communications to Accelerate Data Parallel Distributed Deep Learning
论文地址:https://www.aminer.cn/pub/60af3b429e795e6b8e4edd1f
论文由香港浸会大学褚晓文教授、施少怀博士及香港科技大学李波教授合著。训练AI大模型需要消耗大量的计算资源,例如训练一次拥有1750 亿个参数的GPT-3语言模型需要355个GPU,成本高达460万美元。因此,如何缩短AI大模型的训练时间是当前分布式机器学习的一个热点话题。
本次获奖论文提出了一种新颖的分布式算法来提高在GPU集群上训练大型AI模型的效率。通过理论分析和实验,论文发现利用并发的All-Reduce通信可以有效提高小张量数据的通信效率。研究团队同时利用张量融合和并发通信两种不同的优化策略,提出新的数学优化思路,并找到了有效的解决方案,称为ASC-WFBP。
团队在具有32个GPU和10Gbps以太网的8节点GPU集群上进行了大量的实验,并在四个流行的AI模型上进行了性能评估。
实验结果表明ASC-WFBP相比不进行张量融合的基线方法提高约1.09-2.48倍的速度,而相比最先进的张量融合解决方案,也可以提高1.15-1.35倍的速度。在不影响训练精度的前提下,大幅降低了训练成本。
AMiner,让AI读懂Science:https://www.aminer.cn/