1 前言
本文要是对《Agent Attention On the Integration of Softmax and Linear Attention》这篇论文的一个解读与总结,原文链接[2312.08874] Agent Attention: On the Integration of Softmax and Linear Attention
本文提出一种新型Transformer模型,它结合了Linear Attention和Softmax Attention的优点,在计算效率和表示能力之间取得良好的平衡。具体来说,Agent Attention,表示为四元组,在传统的Attention模块中引入了一组额外的Agent token A。Agent token首先作为Query token Q的代理,从K和V中聚合信息,然后将信息广播回Q。代理令牌的数量可以设计得比查询令牌的数量小得多,从而减少了时间复杂度。本文证明了所提出的代理注意等同于线性注意的广义形式。
2 现有研究存在的问题
上图描述了Softmax Attention,Linear Attention,Agent Attention三种注意力机制的计算过程。
自Vision Transformer诞生以来,自关注在计算机视觉领域取得了显著的进步。然而,普遍存在的Softmax注意力的二次复杂度给将自注意应用于视觉任务带来了挑战。以下是一些常见的注意力机制的简单介绍,同时分析了它们各自的优缺点。
(1)Softmax注意力机制
做法:采用Softmax函数计算Q,K之间的注意力权重。
公式: 。
优点:可以关注的到全局感受野。
缺点:时间复杂度为二次,复杂度高不适合处理长序列数据。
(2)线性注意力机制
做法:抛弃了Softmax函数,使用映射函数 代替Softmax函数计算Q,K之间的注意力权重,改变计算次序从