Transformer重磅更新!新SOTA提速50%,更节省计算资源

谷歌最新发布了Mixture-of-Depths(MoD)。这是一种通过动态分配计算资源来提高计算效率的新型transformer模型。在等效计算量和训练时间上,MoD每次前向传递所需的FLOPs比传统模型少,后训练采样过程中步进速度更快,提高了50%。

这种策略让Transformer省去不必要的计算,大大降低成本,解决了传统Transformer在前向传播中为每个Token花费相同计算量,导致某些token被过度处理或处理不足,最后影响效率的问题。

右上图中的橙色部分,表示没有使用全部计算资源

目前,提升Transformer的运行效率不仅是研究热点,也是AI领域的关键技术挑战之一。MoD的提出成功解决了计算资源分配和硬件限制等关键挑战,并实现了硬件效率的提升、性能的提高以及训练速度的加快。

除MoD之外,研究者们还提出了很多值得学习的Transformer提速优化方案,这次我整理了29个,这些方案主要涉及卷积Attention、Transformer处理长文本等方向,创新点我已经简单提炼了,附上开源代码方便各位复现。

论文和开源代码需要的同学看文末

MoD

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

方法:论文提出了Mixture-of-Depths (MoD)的新型transformer模型,该模型通过动态分配计算资源来提高计算效率。与传统的transformer模型相比,MoD模型可以根据每个令牌的需求动态决定是否进行计算,从而节省计算资源。MoD模型使用了一种学习路由机制,通过路由决策将令牌分配到计算路径中。

创新点:

  • Mixture-of-Depths(MoD)Transformer模型:引入了一种新的Transformer模型,通过动态分配计算资源,实现了在序列的不同位置和不同层之间优化计算资源的分配。与传统的Transformer模型相比,MoD模型可以在保持性能不变的情况下,以更少的计算资源进行前馈传递,并且在训练过程中可以比传统模型快50%以上。

  • 条件计算的学习路由机制:提出了一种基于学习的路由机制,用于确定在每个层中哪些令牌应该参与计算。通过学习路由决策,模型可以根据令牌的特征和任务需求,智能地决定是否将其路由到计算路径中。这种学习路由机制可以有效地减少计算资源的使用,并提高模型的性能。

HoT

Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation

方法:论文提出了一种剪枝与恢复框架,用于从视频中高效进行基于Transformer的3D HPE。与现有的方法不同,该方法首先剪枝冗余帧的姿态标记,然后恢复完整的标记序列。通过这两个设计,可以在中间的Transformer模块中只保留少量的标记,从而提高模型的效率。

为了实现这一点,作者提出了TPC模块,利用聚类选择具有高语义多样性的代表性标记。此外,还提出了TRA模块,根据选择的标记恢复详细的时空信息,将剪枝操作引起的低时空分辨率扩展到完整的时空分辨率。

创新点:

  • 提出了HoT框架,用于高效的基于Transformer的三维人体姿势估计。HoT揭示了保留完整的姿势序列是冗余的,只需选择少数几个代表性帧的姿势令牌即可实现高效和性能的平衡。

  • 提出了TPC模块和TRA模块,用于高效加速VPTs。TPC模块用于选择具有高语义多样性的代表性令牌,以减少视频冗余;TRA模块用于恢复原始的时间分辨率,以实现快速推断。

SEA

SEA: SPARSE LINEAR ATTENTION WITH ESTIMATED ATTENTION MASK

方法:论文提出一种新的稀疏线性注意力方法(SEA),通过压缩注意力矩阵并使用知识蒸馏的方式,以线性复杂度估计预训练模型的注意力矩阵,从而减少注意力机制的空间和时间复杂度,同时保持类似于预训练模型的性能和可解释性。

创新点:

  • 提出了一种新颖的测试时线性注意力机制(SEA),将预训练二次变换器的知识提炼成压缩的估计注意力矩阵,然后用于创建最终注意力操作的稀疏注意力掩码。SEA在测试时的复杂度为O(T),不需要蒸馏步骤。

  • 通过可视化估计的稀疏注意力矩阵并与教师的注意力矩阵进行比较,展示了该方法的可解释性。作者的估计器可以估计自注意力和因果注意力。

Lightning Attention-2

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

方法:论文提出Lightning Attention-2线性注意力机制,以实现线性注意力的理论计算优势。通过采用"分而治之"和平铺技术的概念,该方法成功解决了当前线性注意力算法的局限性,特别是与累积求和相关的挑战。通过将计算分为内部块和间隔块组件,该方法充分利用GPU硬件的潜力,确保效率。

创新点:

  • Lightning Attention-2在计算速度上具有显著优势,这归功于其创新的内部-外部分离策略。

  • Lightning Attention-2相比其他机制具有更小的内存占用,而不会影响性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“提速29”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

  • 6
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值