论文笔记 -- SOFT: Softmax-free Transformer with Linear Complexity-CSDN博客

SOFT是一种新的Transformer模型，它使用高斯核函数替代softmax计算内积，通过低秩矩阵分解近似自注意力矩阵，解决了视觉任务中自注意力机制的计算复杂度问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

SOFT： Softmax-free Transformer with Linear Complexity

SOFT： Softmax-free Transformer with Linear Complexity

原文： SOFT: Softmax-free Transformer with Linear Complexity
出处： NeurIPS-2021 （Neural Information Processing Systems）

摘要： ViT通过图像块序列化+自注意力机制将不同CV任务性能往前推了一把。然而，自注意力机制会带来更高的计算复杂度与内存占用。在NLP领域已有不同的方案尝试采用线性复杂度对自注意力进行近似。然而，本文的深入分析表明：NLP中的近似方案在CV中缺乏理论支撑或者无效。进一步分析了其局限性根因：softmax self-attention 。具体来说，传统自注意力通过计算token之间的点乘并归一化得到自注意力。softmax操作会对后续的线性近似带来极大挑战。基于该发现，本文首次提出了SOFT(softmax-free transformer )。为移除自注意力中的softmax，采用高斯核函数替代点乘相似性且无需进一步的归一化。这就使得自注意力矩阵可以通过低秩矩阵分析近似 。近似的鲁棒性可以通过计算其MP逆(Moore-Penrose Inverse)得到。SOFT的线性复杂度可以允许更长的token序列，进而取得更佳的精度-复杂度均衡。

核心思想：使用高斯核函数代替softmax计算内积，能够通过低秩矩阵分解来近似得到 self-attention 矩阵

Background

在视觉领域，基于self-attention的transformer虽然取得了较好的效果，但其计算量和内存都和是输入分辨率大小的平方
研究认为这种复杂的计算限制主要来源于计算概率时使用的softmax self-attention

在这里插入图片描述

**首先通过实验证明：**实际应用在ImageNet验证集上，token序列长度对应的参数和内存使用量方面的精确度最高的方法；(a) 与CNN系列方法相比；(b) 与Transformer系列方法相比

Motivation

在Vision Transformers（ViTs）上受自注意力的二次复杂度影响高于NLP任务，这一问题随着图像分辨率的提高愈发明显

对于自然语言处理和时间序列表示，所处理的数据为向量形式（数据规模为 $n * 1$ ），视觉所处理的数据为矩阵形式（数据规模为 $n * n$ ）。这样在transformer的 $O(n^2)$ 复杂度情况下对视觉任务的影响更大
在NLP任务对于自注意力复杂度的降低方式之一为引入 $W_q, Q_k, W_v$ 矩阵将 $Q, K, V$ 投影到一个低维空间（乘以权重矩阵可以避免self-attention退化成一个point-wise线性映射，注意力矩阵变为一个对称矩阵，并且达到 $Q, K, V$ 表示的降维）

在这里插入图片描述

投影相关工作

Reformer: The Efficient Transformer将 $Q, K, V$ 设置为相同的值并且没有进行投影，目的为减少模型参数**（主要思想为使用局部敏感的哈希注意力（LSH）代替自注意力操作）**通过哈希映射找query近邻key，去代替原来所有的key进行注意力计算，不设置权重矩阵是为了适应LSH

在这里插入图片描述

Contribution

此前的工作对于Transformer的改进没有考虑softmax的影响，本文使用高斯核函数代替softmax提出一种新颖的线性空间、时间复杂度 的softmax-free Transformer（复杂度为 $O (n)$ ）
所提注意力矩阵近似可以通过具有理论保证（低秩矩阵分解）的矩阵分解算法 计算得到
SOFT在ImageNet图像分类任务上取得了比其他ViT方案更佳的精度-复杂度均衡

Related work

本文的主要思想为使用高斯核函数代替softmax，并利用低秩矩阵分解实降低复杂度

对于自注意力矩阵为低秩矩阵的证明

Linformer: Self-Attention with Linear Complexity文章指出Self-Attention is Low Rank

每个注意力头表示为：

在这里插入图片描述

$P$ 为上下文映射矩阵，证明 $P$ 是一个低秩矩阵

通过使用预训练模型RoBERTa-base进行上下文映射矩阵频谱分析的实验证明：

实验不同注意力头的 $P$ 矩阵做奇异值分解，得出注意力的分布符合长尾分布
在奇异值的热图中，高层的谱分布比下层更倾斜，这意味着在高层，更多的信息集中在最大的奇异值上

在这里插入图片描述

这就意味着上下文映射矩阵的大部分信息可以从少量的信息集中的奇异值中恢复，并且从实验的层面证明了上下文映射矩阵是一个低秩矩阵

使用的引理为：Johnson–Lindenstrauss lemma

在这里插入图片描述

首先将上下文映射矩阵 $P$ 写成另一种形式：

在这里插入图片描述

其中 $D_A$ 是一个 $n\times n$ 的对角矩阵，构造的近似低秩矩阵为：
$\tilde P=\exp(A)\cdot D_{A}^{-1}R^TR$
$R$ 为根据JL引理构造，其中 $R\in \mathbb R^n$ 来自于 $N (0, 1 / k)$ ，根据JL引理，对于矩阵 $VW_{i}^{V}$ 的任意列向量 $\omega \in \mathbb R^n$ ，当 $k=5\log (n)/(\epsilon^2-\epsilon^3)$ 时可以得到：
$Pr(||PR^TR\omega^T-P\omega^T||\leq\epsilon||\tilde P\omega^T||)>1-o(1)$