线性注意力机制

还有你Y

于 2025-03-31 17:13:10 发布

阅读量991

点赞数 16

分类专栏：机器学习、深度学习、强化学习文章标签：深度学习

本文链接：https://blog.csdn.net/qq_45889056/article/details/146779733

版权

机器学习、深度学习、强化学习专栏收录该内容

40 篇文章

订阅专栏

线性注意力机制（Linear Attention）是一类通过降低计算复杂度来优化传统注意力机制的方法，尤其适用于长序列任务。其核心思想是将注意力矩阵的计算复杂度从

O(N^2)

降低到

O (N)

或

\log N)

，从而显著减少计算和内存开销。以下是几种典型的线性注意力算法：

Linear Transformer

在 Transformer 领域，最经典的线性注意力（Linear Attention）机制出自 2020 年由 Katharopoulos 等人提出的《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》（简称 Linear Transformer）。该工作首次系统性地提出了用线性复杂度近似标准 Softmax 注意力的方法，成为后续线性注意力研究的基石。
在这里插入图片描述

知乎详解公式推导

原始的单头注意力机制的计算复杂度：
在这里插入图片描述

1. 核心思想

传统 Transformer 的 Softmax 注意力计算复杂度为 $O(N^2)$ （ $N$ 是序列长度），而 Linear Attention 通过数学重构将复杂度降至 $O (N)$ ，关键步骤：

分解 Softmax 注意力：
标准注意力公式为：
$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
Linear Attention 将其重写为：
$\text{Attention}(Q, K, V) = \frac{\phi(Q)(\phi(K)^T V)}{\phi(Q)(\phi(K)^T \mathbf{1})}$
其中 $\phi(\cdot)$ 是一个特征映射函数（如 $\phi(x) = \text{elu}(x) + 1$ ），将 $Q$ 和 $K$ 映射到非负空间。
利用结合律优化计算顺序：
先计算 $(\phi(K)^T V)$ 和 $(\phi(K)^T \mathbf{1})$ （复杂度 $O (N)$ ），再与 $\phi(Q)$ 相乘，避免显式计算 $QK^T$ （ $O(N^2)$ ）。

2. 为什么它成为经典？

理论严谨性：首次证明了线性注意力的可行性，并通过数学推导保证近似效果。
通用性：适用于自回归和非自回归任务（如文本生成、图像分类）。
效率提升：在长序列任务（如 DNA 序列分析、高分辨率图像处理）中显著降低内存和计算成本。

3. 后续发展

Linear Transformer 启发了多种改进方案，例如：

Performer（2021, Google）：使用随机正交特征映射（Random Fourier Features）进一步优化近似效果。
Linformer（2020, Facebook）：通过低秩投影压缩 $K$ 和 $V$ 的维度。
Flowformer（2022）：引入流模型思想增强线性注意力的表达能力。

5. 适用场景

长序列建模：如视频处理、基因组序列分析。
资源受限设备：移动端或边缘计算场景。
实时应用：需要低延迟的生成任务（如实时语音合成）。

总结
Linear Transformer 是线性注意力领域的开创性工作，通过特征映射和计算顺序优化实现了 $O (N)$ 复杂度，平衡了效率与性能。尽管后续模型（如 Performer、Linformer）在某些任务上表现更好，但其核心思想仍是当前线性注意力研究的基准。

Linear Transformer 和 Linformer对比

Linear Transformer 和 Linformer 都是旨在降低 Transformer 自注意力计算复杂度的经典方法，但两者的设计思路和实现方式有显著区别。以下是它们的核心对比：

1. 核心目标

共同点：将标准 Softmax 注意力的 $O(N^2)$ 复杂度降至线性复杂度 $O (N)$ （ $N$ 为序列长度）。
差异：
- Linear Transformer：通过数学重构（特征映射+结合律）直接近似 Softmax 注意力。
- Linformer：通过低秩投影压缩 Key 和 Value 的序列长度，间接降低计算量。

2. 方法原理对比

(1) Linear Transformer

核心思想：
将 Softmax 注意力分解为线性运算，利用特征映射函数 $\phi(\cdot)$ 和结合律重写注意力公式：
$\text{Attention}(Q, K, V) = \frac{\phi(Q)(\phi(K)^T V)}{\phi(Q)(\phi(K)^T \mathbf{1})}$
- 特征映射：使用简单的非线性函数（如 $\phi(x) = \text{elu}(x)+1$ ）保证非负性。
- 计算顺序：先计算 $\phi(K)^T V$ （复杂度 $O (N)$ ），再与 $\phi(Q)$ 相乘。
优点：
- 保持自注意力机制的全局交互能力。
- 无需训练额外的投影矩阵，计算更轻量。

(2) Linformer

在这里插入图片描述
在Q和K的后续添加两个Projection单元，将序列长度n映射到低维的k，作者将这种单元称之为Linformer。

核心思想：
假设注意力矩阵是低秩的，通过投影将 $K$ 和 $V$ 的序列长度从 $N$ 压缩到 $k$ （ $\ll N$ ）：
$\tilde{K} = K \cdot E_K, \quad \tilde{V} = V \cdot E_V$
其中 $E_K, E_V \in \mathbb{R}^{N \times k}$ 是可学习的投影矩阵。
注意力计算变为：
$\text{Attention}(Q, \tilde{K}, \tilde{V}) = \text{softmax}\left(\frac{Q \tilde{K}^T}{\sqrt{d_k}}\right) \tilde{V}$
- 复杂度：从 $O(N^2)$ 降至 $\cdot k)$ （若 $k$ 为常数，则为 $O (N)$ ）。
优点：
- 直接压缩序列长度，适合超长序列（如文档或高分辨率图像）。
- 保留原始 Softmax 形式，理论近似误差更小。

3. 关键区别总结

特性	Linear Transformer	Linformer
核心方法	特征映射 + 结合律优化	低秩投影压缩 $K$ 和 $V$
复杂度	$O (N)$ （严格线性）	$\cdot k)$ （近似线性）
是否保留 Softmax	❌ 替换为线性近似	✅ 保留原始 Softmax
是否需要投影矩阵	❌ 无额外参数	✅ 需学习 $E_K, E_V$
适用场景	通用序列任务（生成、分类）	超长序列（文档、图像）
近似误差	较高（依赖特征映射的合理性）	较低（低秩假设成立时）
开源实现	GitHub	GitHub

4. 直观理解

Linear Transformer 像“用乘法分配律加速计算”：
$\cdot (K^T V) = (Q K^T) V$
左式（Linear）复杂度更低，但近似了右式（标准注意力）的效果。
Linformer 像“用降维压缩数据”：
将 $K$ 和 $V$ 从 $\times d$ 投影到 $\times d$ （类似 PCA），直接减少计算量。

5. 代码对比

(1) Linear Transformer 核心代码

def linear_attention(Q, K, V):
    phi = lambda x: F.elu(x) + 1  # 特征映射
    Q, K = phi(Q), phi(K)
    KV = torch.einsum('nkd,nkv->kdv', K, V)  # 先计算 K^T V
    return torch.einsum('nkd,kdv->nkv', Q, KV)

(2) Linformer 核心代码

class LinformerAttention(nn.Module):
    def __init__(self, dim, seq_len, k=256):
        super().__init__()
        self.E_K = nn.Parameter(torch.randn(seq_len, k))  # 投影矩阵
        self.E_V = nn.Parameter(torch.randn(seq_len, k))

    def forward(self, Q, K, V):
        K = torch.einsum('nkd,nk->kd', K, self.E_K)  # 降维
        V = torch.einsum('nkd,nk->kd', V, self.E_V)
        attn = torch.softmax(Q @ K.T / sqrt(dim), dim=-1)
        return attn @ V

6. 如何选择？

优先 Linear Transformer：
- 任务需要严格线性复杂度且对近似误差不敏感（如实时生成）。
- 设备资源有限，需减少参数量。
优先 Linformer：
- 处理超长序列（如 4K 图像、万词文档）。
- 需保留 Softmax 的精确交互特性（如敏感的分类任务）。

总结
两者均为线性注意力的里程碑工作：

Linear Transformer 胜在数学简洁，适合轻量级场景；
Linformer 胜在低秩压缩，适合长序列高精度需求。
后续研究（如 Performer、Nyströmformer）往往结合两者优点进一步优化。

经典模型

1. Performer (2020)

核心思想：使用随机特征映射（Random Feature Maps）近似 softmax 核函数，将注意力矩阵分解为低秩形式。
优点：计算复杂度为 $O (N)$ ，适用于长序列任务。
缺点：随机特征映射可能引入近似误差。
论文：Rethinking Attention with Performers

2. Linformer (2020)

核心思想：通过低秩投影将 Key 和 Value 矩阵的维度从 $\times d$ 降为 $\times d$ （其中 $\ll N$ ），从而将复杂度从 $O(N^2)$ 降为 $O (N k)$ 。
优点：简单高效，适合长序列任务。
缺点：低秩投影可能丢失部分信息。
论文：Linformer: Self-Attention with Linear Complexity

3. Linear Transformer (2020)

核心思想：使用核函数（如 RBF 或多项式核）替换 softmax，将注意力矩阵分解为 $Q(K^T V)$ 的形式，从而将复杂度降为 $O (N)$ 。
优点：计算高效，适合长序列任务。
缺点：核函数的选择可能影响性能。
论文：Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention