发顶会顶刊首选——线性注意力！那很顶了

Ai多利

于 2025-04-09 11:16:14 发布

阅读量654

点赞数 12

文章标签：注意力 attention

本文链接：https://blog.csdn.net/2401_88556812/article/details/147089226

版权

2025深度学习发论文&模型涨点之——线性注意力

Transformer 架构凭借其强大的序列建模能力，在自然语言处理、计算机视觉等领域取得了显著成功。然而，其核心组件——自注意力机制（Self-Attention）的计算复杂度随序列长度呈二次方增长，严重限制了模型在长序列任务中的可扩展性。为缓解这一瓶颈，线性注意力（Linear Attention） 应运而生，其核心思想是通过数学近似或结构化稀疏假设，将注意力计算复杂度降低至线性，同时尽可能保留原始注意力的表达能力。

我整理了一些线性注意力【论文+代码】合集，需要的同学公人人人号【AI创新工场】发525自取。

论文精选

论文1：

When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models

当线性注意力遇上自回归解码：迈向更高效和有效的线性化大型语言模型

方法

线性注意力增强：提出了一种局部卷积增强技术，用于增强线性注意力在自回归语言模型中的局部特征提取能力，同时防止信息泄露。

分组线性注意力：引入分组线性注意力，将输入序列划分为非重叠组，允许组内并行处理，提高训练效率。

与自回归解码的集成：开发了一种解决方案，将增强的线性注意力与自回归解码的树形注意力无缝集成，以提高生成效率。

实验验证：通过在多种语言模型（包括FLASH、T5、GPT-2、LLaMA等）上进行广泛的实验，验证了增强线性注意力的有效性。

创新点

线性注意力增强：通过引入局部卷积增强技术，显著提高了线性注意力在自回归语言模型中的性能，特别是在长序列处理和生成任务中。

分组线性注意力：通过分组处理，实现了线性注意力的并行计算，显著提高了训练速度。例如，在FLASH模型中，与原始线性注意力相比，训练速度提升了1.52×（4K序列长度）和2.94×（8K序列长度）。

与自回归解码的集成：成功将线性注意力与自回归解码的树形注意力集成，实现了2×的生成速度提升，同时保持了生成质量。

性能提升：在LLaMA模型上，增强线性注意力实现了高达6.67的困惑度降低，显著优于现有的线性注意力方法。

论文2：

Gated Linear Attention Transformers with Hardware-Efficient Training

具有硬件高效训练的门控线性注意力Transformer

方法

硬件高效线性注意力：提出了一种硬件高效的线性注意力算法FLASHLINEARATTENTION，通过优化内存访问和利用张量核心，提高了线性注意力的训练效率。

门控线性注意力（GLA）：引入了数据依赖的门控机制，允许模型在训练过程中动态调整注意力权重，提高了模型的表达能力和性能。

分块线性形式：将输入序列划分为多个块，通过块内并行计算和块间递归更新，实现了线性时间复杂度的训练。

实验验证：在多种语言建模任务上验证了GLA Transformer的性能，与现有的Transformer架构和线性时间模型进行了比较。

创新点

硬件高效线性注意力：FLASHLINEARATTENTION算法在硬件上进行了优化，即使在短序列长度（如1K）上，也比FLASHATTENTION-2更快，显著提高了训练效率。

门控线性注意力：通过引入数据依赖的门控机制，GLA Transformer在长序列建模和回忆密集型任务中表现出色，例如在PG19测试集上，GLA Transformer的困惑度显著低于其他线性时间模型。

性能提升：在中等规模的语言建模实验中，GLA Transformer在困惑度和准确率上与强大的Transformer架构（如LLaMA）和线性时间基线（如RetNet和Mamba）相当，同时在训练吞吐量上显著优于Mamba模型。

论文3：

Simple linear attention language models balance the recall-throughput tradeoff

简单的线性注意力语言模型平衡了回忆和吞吐量的权衡

方法

线性注意力与滑动窗口注意力结合：提出了Based架构，结合了全局线性注意力和局部滑动窗口注意力，通过调整窗口大小和线性注意力的特征维度，可以在回忆能力和内存使用之间进行权衡。

泰勒展开近似：使用二阶泰勒展开近似softmax函数，作为线性注意力的特征映射，提高了计算效率。

硬件感知优化：开发了针对线性注意力和滑动窗口注意力的硬件感知算法，显著提高了生成速度和内存效率。

实验验证：在多种语言建模任务和回忆密集型任务上验证了Based模型的性能，与现有的高效架构进行了比较。

创新点

线性注意力与滑动窗口注意力结合：Based架构通过结合全局线性注意力和局部滑动窗口注意力，有效地平衡了回忆能力和内存使用，例如在Pile语言建模任务中，Based模型在回忆密集型任务上比Mamba等现有架构高出6.22个准确率点。

硬件感知优化：通过优化内存访问和利用张量核心，Based模型在生成速度上实现了显著提升，例如在1.3B参数模型生成1024个token时，吞吐量比FlashAttention-2高出24倍。

性能提升：在DNA建模任务中，Based模型在不同序列长度上均表现出与现有架构相当的性能，证明了其在不同模态上的适用性。