INFOCOM 2021最佳论文奖：一种新颖的分布式算法提高在GPU集群上训练大型AI模型的效率

AMiner学术搜索和科技情报挖掘

于 2021-05-27 14:58:32 发布

阅读量1.3k

点赞数

分类专栏： AMiner会议论文推荐 AMiner AMiner论文推荐文章标签：分布式算法机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AI_Conf/article/details/117328949

版权

分布式深度学习并发通信张量融合 GPU集群 AI模型训练

关键词由CSDN通过智能技术生成

AMiner 同时被 3 个专栏收录

729 篇文章 46 订阅

订阅专栏

AMiner论文推荐

515 篇文章 52 订阅

订阅专栏

AMiner会议论文推荐

240 篇文章 18 订阅

订阅专栏

INFOCOM 2021最佳论文：Exploiting Simultaneous Communications to Accelerate Data Parallel Distributed Deep Learning
论文地址：https://www.aminer.cn/pub/60af3b429e795e6b8e4edd1f

论文由香港浸会大学褚晓文教授、施少怀博士及香港科技大学李波教授合著。训练AI大模型需要消耗大量的计算资源，例如训练一次拥有1750 亿个参数的GPT-3语言模型需要355个GPU，成本高达460万美元。因此，如何缩短AI大模型的训练时间是当前分布式机器学习的一个热点话题。

本次获奖论文提出了一种新颖的分布式算法来提高在GPU集群上训练大型AI模型的效率。通过理论分析和实验，论文发现利用并发的All-Reduce通信可以有效提高小张量数据的通信效率。研究团队同时利用张量融合和并发通信两种不同的优化策略，提出新的数学优化思路，并找到了有效的解决方案，称为ASC-WFBP。
在这里插入图片描述

团队在具有32个GPU和10Gbps以太网的8节点GPU集群上进行了大量的实验，并在四个流行的AI模型上进行了性能评估。
在这里插入图片描述

实验结果表明ASC-WFBP相比不进行张量融合的基线方法提高约1.09-2.48倍的速度，而相比最先进的张量融合解决方案，也可以提高1.15-1.35倍的速度。在不影响训练精度的前提下，大幅降低了训练成本。

AMiner，让AI读懂Science：https://www.aminer.cn/

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。