1,原理部分
在将 Transformer 模型应用于视觉任务时,自我注意的二次计算复杂性一直是一个持续的挑战。另一方面,线性注意力通过精心设计的映射函数近似 Softmax 操作,通过其线性复杂性提供了一种更有效的替代方案。然而,当前的线性注意力方法要么性能显著下降,要么从 Map 函数中引入额外的计算开销。在本文中,我们提出了一种新的 Focused Linear Attention 模块,以实现高效率和表现力。具体来说,我们首先从两个角度分析了导致线性注意力性能下降的因素:聚焦能力和特征多样性。为了克服这些限制,我们引入了一种简单而有效的映射函数和一种高效的秩恢复模型,以增强自我注意力的表现力,同时保持较低的计算复杂度。大量的实验表明,我们的线性注意力模块适用于各种先进的视觉 Transformers,并在多个基准测试中实现了持续改进的性能。