2025深度学习发论文&模型涨点之——线性注意力
Transformer 架构凭借其强大的序列建模能力,在自然语言处理、计算机视觉等领域取得了显著成功。然而,其核心组件——自注意力机制(Self-Attention)的计算复杂度随序列长度呈二次方增长,严重限制了模型在长序列任务中的可扩展性。为缓解这一瓶颈,线性注意力(Linear Attention) 应运而生,其核心思想是通过数学近似或结构化稀疏假设,将注意力计算复杂度降低至线性,同时尽可能保留原始注意力的表达能力。
我整理了一些线性注意力【论文+代码】合集,需要的同学公人人人号【AI创新工场】发525自取。
论文精选
论文1:
When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models
当线性注意力遇上自回归解码:迈向更高效和有效的线性化大型语言模型
方法
线性注意力增强:提出了一种局部卷积增强技术,用于增强线性注意力在自回归语言模型中的局部特征提取能力,同时防止信息泄露。
分组线性注意力:引入分组线性注意力,将输入序列划分为非重叠组,允许组内并行处理,提高训练效率。
与自回归解码的集成:开发了一种解决方案,将增强的线性注意力与自回归解码的树形注意力无缝集成,以提高生成效率。
实验验证:通过在多种语言模型(包括FLASH、T5、GPT-2、LLaMA等)上进行广泛的实验,验证了增强线性注意力的有效性。
创新点
线性注意力增强:通过引入局部卷积增强技术,显著提高了线性注意力在自回归语言模型中的性能,特别是在长序列处理和生成任务中。
分组线性注意力:通过分组处理,实现了线性注意力的并行计算,显著提高了训练速度。例如,在FLASH模型中,与原始线性注意力相比,训练速度提升了1.52×(4K序列长度)和2.94×(8K序列长度)。
与自回归解码的集成:成功将线性注意力与自回归解码的树形注意力集成,实现了2×的生成速度提升,同时保持了生成质量。
性能提升:在LLaMA模型上,增强线性注意力实现了高达6.67的困惑度降低,显著优于现有的线性注意力方法。
论文2:
Gated Linear Attention Transformers with Hardware-Efficient Training
具有硬件高效训练的门控线性注意力Transformer
方法
硬件高效线性注意力:提出了一种硬件高效的线性注意力算法FLASHLINEARATTENTION,通过优化内存访问和利用张量核心,提高了线性注意力的训练效率。
门控线性注意力(GLA):引入了数据依赖的门控机制,允许模型在训练过程中动态调整注意力权重,提高了模型的表达能力和性能。
分块线性形式:将输入序列划分为多个块,通过块内并行计算和块间递归更新,实现了线性时间复杂度的训练。
实验验证:在多种语言建模任务上验证了GLA Transformer的性能,与现有的Transformer架构和线性时间模型进行了比较。
创新点
硬件高效线性注意力:FLASHLINEARATTENTION算法在硬件上进行了优化,即使在短序列长度(如1K)上,也比FLASHATTENTION-2更快,显著提高了训练效率。
门控线性注意力:通过引入数据依赖的门控机制,GLA Transformer在长序列建模和回忆密集型任务中表现出色,例如在PG19测试集上,GLA Transformer的困惑度显著低于其他线性时间模型。
性能提升:在中等规模的语言建模实验中,GLA Transformer在困惑度和准确率上与强大的Transformer架构(如LLaMA)和线性时间基线(如RetNet和Mamba)相当,同时在训练吞吐量上显著优于Mamba模型。
论文3:
Simple linear attention language models balance the recall-throughput tradeoff
简单的线性注意力语言模型平衡了回忆和吞吐量的权衡
方法
线性注意力与滑动窗口注意力结合:提出了Based架构,结合了全局线性注意力和局部滑动窗口注意力,通过调整窗口大小和线性注意力的特征维度,可以在回忆能力和内存使用之间进行权衡。
泰勒展开近似:使用二阶泰勒展开近似softmax函数,作为线性注意力的特征映射,提高了计算效率。
硬件感知优化:开发了针对线性注意力和滑动窗口注意力的硬件感知算法,显著提高了生成速度和内存效率。
实验验证:在多种语言建模任务和回忆密集型任务上验证了Based模型的性能,与现有的高效架构进行了比较。
创新点
线性注意力与滑动窗口注意力结合:Based架构通过结合全局线性注意力和局部滑动窗口注意力,有效地平衡了回忆能力和内存使用,例如在Pile语言建模任务中,Based模型在回忆密集型任务上比Mamba等现有架构高出6.22个准确率点。
硬件感知优化:通过优化内存访问和利用张量核心,Based模型在生成速度上实现了显著提升,例如在1.3B参数模型生成1024个token时,吞吐量比FlashAttention-2高出24倍。
性能提升:在DNA建模任务中,Based模型在不同序列长度上均表现出与现有架构相当的性能,证明了其在不同模态上的适用性。