最新综述!Transformer如何高效训练?

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

一、前言

本综述首次系统地概述了Transformers的有效训练策略,涵盖了加速算法和硬件的最新进展,重点是前者。论文分析并比较了在训练期间为中间张量节省计算和存储成本的方法,以及硬件/算法协同设计技术。最后讨论了未来研究的挑战和前景。

题目:A Survey on Efficient Training of Transformers

作者单位:莫纳什大学、浙江大学

深度学习,也称为深度神经网络(DNN),是机器学习的一种变革性方法。它彻底改变了机器学习和人工智能,被广泛认为是引领第四次工业革命的技术。总的来说,深度学习的巨大成功归功于它对现有大量计算资源和大量标记数据的有效利用。尽管最近的发展带来了巨大的兴奋,但深度学习模型,特别是Transformer,已经变得非常庞大和计算密集,这导致了两个基本挑战。

第一个问题涉及训练基于Transformer大模型的密集计算。一项广泛讨论的深度学习模型能源研究[74]估计,训练大型语言模型(LLM)会产生626155磅的二氧化碳,相当于五辆汽车的终生排放量;随着模型越来越大,它们对计算的需求超过了硬件效率的提高。例如,superstar GPT-3[9]由5000亿个单词训练,并有1750亿个参数。值得注意的是,根据GPT-3的技术概述,单次训练需要355 GPU年,成本至少为460万美元,V100理论上为28 TFLOPS,3年保留云定价最低。因此,使深度学习在计算中成立以及与绿色AI相关的能耗变得极为重要。

第二个问题是训练内存呈指数增长,与基于注意力的模型大小成正比。例如,文献中最大的语言模型从2018年BERTlarge[43]的345M增长到现在的数千亿,如MT-NLG[71]等模型配备了530B参数。因此,这些SOTA大规模模型需要内存高效的训练技术,以减少存储中间张量和跨加速器的数据交换(通信)的内存占用,同时确保高处理元件(PE)利用率。

本文回顾了用于训练基于注意力的模型(即Transformer)的提高计算和内存效率的通用技术,如图1所示。论文通过技术创新和主要用例来描述它们,总结它们,并绘制它们之间的联系。论文主要对提高Transformer训练效率的算法创新感兴趣,并简要讨论了硬件/算法代码设计的进展。并将硬件加速器设计的回顾作为未来的工作。

f97f98295a6d4171257fbdf93f6ba9c0.png 5e6ac5d44b4e0bd8d657ce7fff54bfd3.png

更多精彩内容请见自动驾驶之心知识星球,一起学习一起卷!

029be2688520e393048ae8b6cd00b235.jpeg

任何疑问欢迎联系汽车人助理,备注方向+昵称:

ba1bb8c4593bdfdaa7b40d3d6fee4185.jpeg

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值