Transformer重磅更新！新SOTA提速50%，更节省计算资源

最新推荐文章于 2024-06-22 16:12:05 发布

深度之眼

最新推荐文章于 2024-06-22 16:12:05 发布

阅读量1.5k

点赞数 6

分类专栏：深度学习干货人工智能干货文章标签：深度学习人工智能机器学习 transformer

本文链接：https://blog.csdn.net/weixin_42645636/article/details/137472576

版权

深度学习干货同时被 2 个专栏收录

458 篇文章 131 订阅

订阅专栏

人工智能干货

431 篇文章 19 订阅

订阅专栏

谷歌最新发布了Mixture-of-Depths（MoD）。这是一种通过动态分配计算资源来提高计算效率的新型transformer模型。在等效计算量和训练时间上，MoD每次前向传递所需的FLOPs比传统模型少，后训练采样过程中步进速度更快，提高了50%。

这种策略让Transformer省去不必要的计算，大大降低成本，解决了传统Transformer在前向传播中为每个Token花费相同计算量，导致某些token被过度处理或处理不足，最后影响效率的问题。

右上图中的橙色部分，表示没有使用全部计算资源

目前，提升Transformer的运行效率不仅是研究热点，也是AI领域的关键技术挑战之一。MoD的提出成功解决了计算资源分配和硬件限制等关键挑战，并实现了硬件效率的提升、性能的提高以及训练速度的加快。

除MoD之外，研究者们还提出了很多值得学习的Transformer提速优化方案，这次我整理了29个，这些方案主要涉及卷积Attention、Transformer处理长文本等方向，创新点我已经简单提炼了，附上开源代码方便各位复现。

论文和开源代码需要的同学看文末

MoD

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

方法：论文提出了Mixture-of-Depths (MoD)的新型transformer模型，该模型通过动态分配计算资源来提高计算效率。与传统的transformer模型相比，MoD模型可以根据每个令牌的需求动态决定是否进行计算，从而节省计算资源。MoD模型使用了一种学习路由机制，通过路由决策将令牌分配到计算路径中。

创新点：

Mixture-of-Depths（MoD）Transformer模型：引入了一种新的Transformer模型，通过动态分配计算资源，实现了在序列的不同位置和不同层之间优化计算资源的分配。与传统的Transformer模型相比，MoD模型可以在保持性能不变的情况下，以更少的计算资源进行前馈传递，并且在训练过程中可以比传统模型快50%以上。
条件计算的学习路由机制：提出了一种基于学习的路由机制，用于确定在每个层中哪些令牌应该参与计算。通过学习路由决策，模型可以根据令牌的特征和任务需求，智能地决定是否将其路由到计算路径中。这种学习路由机制可以有效地减少计算资源的使用，并提高模型的性能。

HoT

Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation

方法：论文提出了一种剪枝与恢复框架，用于从视频中高效进行基于Transformer的3D HPE。与现有的方法不同，该方法首先剪枝冗余帧的姿态标记，然后恢复完整的标记序列。通过这两个设计，可以在中间的Transformer模块中只保留少量的标记，从而提高模型的效率。

为了实现这一点，作者提出了TPC模块，利用聚类选择具有高语义多样性的代表性标记。此外，还提出了TRA模块，根据选择的标记恢复详细的时空信息，将剪枝操作引起的低时空分辨率扩展到完整的时空分辨率。

创新点：

提出了HoT框架，用于高效的基于Transformer的三维人体姿势估计。HoT揭示了保留完整的姿势序列是冗余的，只需选择少数几个代表性帧的姿势令牌即可实现高效和性能的平衡。
提出了TPC模块和TRA模块，用于高效加速VPTs。TPC模块用于选择具有高语义多样性的代表性令牌，以减少视频冗余；TRA模块用于恢复原始的时间分辨率，以实现快速推断。

SEA

SEA: SPARSE LINEAR ATTENTION WITH ESTIMATED ATTENTION MASK

方法：论文提出一种新的稀疏线性注意力方法（SEA），通过压缩注意力矩阵并使用知识蒸馏的方式，以线性复杂度估计预训练模型的注意力矩阵，从而减少注意力机制的空间和时间复杂度，同时保持类似于预训练模型的性能和可解释性。

创新点：

提出了一种新颖的测试时线性注意力机制（SEA），将预训练二次变换器的知识提炼成压缩的估计注意力矩阵，然后用于创建最终注意力操作的稀疏注意力掩码。SEA在测试时的复杂度为O(T)，不需要蒸馏步骤。
通过可视化估计的稀疏注意力矩阵并与教师的注意力矩阵进行比较，展示了该方法的可解释性。作者的估计器可以估计自注意力和因果注意力。

Lightning Attention-2

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

方法：论文提出Lightning Attention-2线性注意力机制，以实现线性注意力的理论计算优势。通过采用"分而治之"和平铺技术的概念，该方法成功解决了当前线性注意力算法的局限性，特别是与累积求和相关的挑战。通过将计算分为内部块和间隔块组件，该方法充分利用GPU硬件的潜力，确保效率。

创新点：

Lightning Attention-2在计算速度上具有显著优势，这归功于其创新的内部-外部分离策略。
Lightning Attention-2相比其他机制具有更小的内存占用，而不会影响性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“提速29”获取全部论文+代码

码字不易，欢迎大家点赞评论收藏

深度之眼

关注

6
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Transformer重磅更新！新SOTA提速50%，更节省计算资源

这是一种通过动态分配计算资源来提高计算效率的新型transformer模型。在等效计算量和训练时间上，MoD每次前向传递所需的FLOPs比传统模型少，后训练采样过程中步进速度更快，提高了50%。这种策略让Transformer省去不必要的计算，大大降低成本，解决了传统Transformer在前向传播中为每个Token花费相同计算量，导致某些token被过度处理或处理不足，最后影响效率的问题。右上图中的橙色部分，表示没有使用全部计算资源目前，也是AI领域的关键技术挑战之一。
复制链接

扫一扫