2025创新idea!线性注意力机制狂发顶会!

​线性注意力机制是一种改进传统自注意力(Self-Attention)的方法,旨在降低计算复杂度并提高效率。传统自注意力机制的计算复杂度是输入序列长度的二次方(O(n²)),这使得它在处理长序列时效率较低且计算成本高昂。

我还整理出了相关的论文+开源代码,以下是精选部分论文

更多论文料可以关注AI科技探寻,发送:111  领取更多[论文+开源码】 

论文1

标题:

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Griffin:结合门控线性递归和局部注意力以提高语言模型效率

法:

  • RG-LRU层:提出了一种新的门控线性递归层(RG-LRU),用于替代多查询注意力(MQA)。

  • 混合模型架构:设计了两种模型——Hawk(纯递归模型)和Griffin(混合递归和局部注意力的模型)。

  • 门控机制:在RG-LRU中引入了输入门和递归门,允许模型在保留历史信息的同时过滤不重要的输入。

创新点:

  • Griffin模型:在训练时使用的token数量比Llama-2少6倍的情况下,Griffin匹配了Llama-2的性能。

  • 长序列推理:Griffin能够处理比训练时更长的序列,且在长序列任务上表现优于Transformer基线。

  • 推理效率:在推理阶段,Griffin和Hawk的吞吐量比MQA Transformer高出14.8倍,延迟更低。

  • 硬件效率:在训练时,Griffin与Transformer的硬件效率相当,且在推理时具有更低的延迟和更高的吞吐量。

image.png

论文2

标题:

Simple linear attention language models balance the recall-throughput tradeoff

简单的线性注意力语言模型平衡了回忆和吞吐量的权衡

法:

  • 基于线性注意力的架构(Based):提出了一种结合线性注意力和滑动窗口注意力的混合架构。

  • Taylor线性注意力:使用二阶泰勒展开近似softmax函数,实现线性注意力的高效计算。

  • 滑动窗口注意力优化通过选择小窗口大小(如64或128),优化了滑动窗口注意力的硬件效率。

创新点:

  • 回忆能力提升:Based模型在回忆任务上比Mamba等子二次模型高出6.22个准确度点。

  • 吞吐量优化:在生成1024个token时,Based的吞吐量比FlashAttention-2高出24倍。

  • 硬件效率:通过小窗口大小和硬件感知算法,Based在推理时的延迟比大窗口模型低1e-5倍。

  • 平衡权衡:Based通过调整线性注意力的特征维度和滑动窗口大小,能够在回忆能力和吞吐量之间灵活权衡。

image.png

论文3

标题:

Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation

训练短序列,测试长序列:线性偏置注意力实现输入长度的外推
方法:
  • 线性偏置注意力(ALiBi):提出了一种新的位置编码方法,通过在注意力分数中引入与距离成比例的线性偏置,而不是添加位置嵌入。

  • 位置编码优化:ALiBi通过消除位置嵌入,直接在注意力分数中引入偏差,从而提高模型对序列长度的适应能力。

  • 简单实现:ALiBi通过修改现有Transformer代码中的几行代码即可实现,无需额外的训练参数。

创新点:

  • 性能提升:ALiBi在训练时使用的输入序列长度为1024,但在测试时能够处理长度为2048的序列,并且在困惑度上与训练长度为2048的正弦位置编码模型相当,同时训练速度提升11%,内存使用减少11%。

  • 长序列外推:ALiBi能够有效外推到比训练时更长的序列,且在长序列任务上表现优于其他位置编码方法。

  • 计算效率:ALiBi在训练和推理时的运行速度与正弦位置编码方法相当,且在某些情况下更快,同时内存使用略有增加(最多100MB)。

image.png

论文4

标题:

When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models

当线性注意力遇上自回归解码:迈向更高效、更有效的线性化大型语言模型

法:

  • 线性注意力增强:提出了一种新的线性注意力增强技术,通过引入因果掩码的深度可分离卷积(DWConv)来防止信息泄露。

  • 分组线性注意力:将输入序列划分为非重叠组,通过局部注意力和分组注意力的结合提高效率。

  • 与推测解码的兼容性:开发了一种与推测解码兼容的线性注意力方法,通过展开卷积核并结合树状注意力掩码,实现高效的并行生成。

创新点:

  • 性能提升:在LLaMA模型上,使用增强的线性注意力方法实现了高达6.67倍的困惑度降低。

  • 生成加速与现有线性注意力方法相比,生成速度提升高达2倍。

  • 长序列支持:通过增强的线性注意力,模型能够支持更长的序列长度(从8K扩展到32K),同时显著降低延迟和内存使用。

image.png

 

更多论文料可以关注AI科技探寻,发送:111  领取更多[论文+开源码】 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值