线性注意力机制通过对传统注意力机制中的Softmax操作进行线性化处理,可以提高Transformer模型的并行性能、降低复杂度,在计算效率、模型表达能力等方面都具有优势。
作为一种常用有效的优化方法,线性注意力机制可以在保证模型性能的同时提高计算效率。而近期,有关线性注意力机制的研究有了新的成果,其中最具代表的就是代理注意力、TransNormerLLM。
-
Agent Attention:Softmax注意力与线性注意力的结合,创造了一种既高效又强大的新型注意力机制。这种结合体现在所谓的“代理注意力”中,它通过两个常规的Softmax注意力操作的组合,实现了高性能和高效率的融合。
-
TransNormerLLM:第一个基于线性注意力的大模型,完全抛弃了基于 Softmax 的注意力机制,而是使用了新提出的线性注意力。
除以上两种创新以外,还有一些值得关注的线性注意力机制相关成果,都是前沿最新,我也帮同学们列出了部分成果的方法和创新点,大家可以借鉴学习,目前共有9篇,附上开源代码方便复现。
论文以及开源代码需要的同学看文末
Agent Attention
Agent Attention: On the Integration of Softmax and Linear Attention
方法:论文提出了一种新颖的注意力机制,Agent Attention,用于在计算效率和表示能力之间取得良好的平衡。Agent Attention引入了一组额外的代理令牌A到传统的注意力模块中