【论文阅读】谷歌Infini-Transformer,一种长上下文的注意力机制

谷歌论文提出Infini-attention注意力机制,有效解决LLM处理长序列时内存消耗大、计算成本高的问题。该机制将长上下文的注意力KV状态压缩到记忆中,通过记忆检索和更新等步骤,实现长短期信息融合。实验证明,Infini-Transformer能提升长序列任务性能,实现高压缩率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于LLM,长上下文功能非常重要。最近谷歌的一篇论文提出了一种新的Infini-attention注意力机制,将长上下文的注意力KV状态压缩到记忆中,有效解决LLM在处理长序列时的内存消耗大和计算成本高的问题。
在这里插入图片描述

论文方法
通过下图可以看的比较直接,图的右侧是常规的多头注意力;左侧的处理,通过当前状态的Q值,去检索历史的KV状态,然后计算Amem(具体计算后续描述);然后聚合,再经过线性投影计算。
在这里插入图片描述
从图中可以看到两个主要问题,一个是历史的KV如何更新,一个是如何根据当前Q值检索历史KV状态。

文章中提到的Memory retrieval(记忆检索)是Infini-attention机制中的一个关键步骤,它涉及到从压缩记忆中检索与当前输入序列相关的信息。具体的方法如下:

  1. 使用查询向量(Query Vectors):在Infini-attention中,每个注意力头(attention head)都会生成一个查询向量(Q),这个查询向量用于与压缩记忆中存储的信息进行匹配。

  2. 压缩记忆(Compressive Memory):压缩记忆由两个主要部分组成࿰

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bylander

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值