引言
本文主要是对《FLatten Transformer: Vision Transformer using Focused Linear Attention》这篇论文的一个解读与总结,原文链接:[2308.00442] FLatten Transformer: Vision Transformer using Focused Linear Attention (arxiv.org)
本篇论文主要是对注意力机制的时间复杂度的一个优化,采用映射函数同时变换计算次序,将普通注意力机制的二次时间复杂度优化为线性时间复杂度。但是因为采用线性注意力模块会导致特征聚焦,减少特征多样性,限制了注意力模块的表达能力,导致信息丢失,减少区分度,进而导致线性注意力模块的性能下降,所以再采用深度卷积模块来解决这一局限,保证特征的多样性。
预备知识
① 首先我们需要了解softmax注意力机制的计算过程,可以参考这篇博客注意力机制-CSDN博客
② 其次我们需要了解softmax注意力机制的时间复杂度:
③ 最后我们需要了解现已有线性注意力机制是怎么实现的:
不使用softmax函数计算权重分布,采用映射函数代替softmax函数,然后再改变计算次序,降低时间复杂度,即可得到线性时间复杂度的注意力机制。