传统(多头注意力机制):
在
余
下
部
分
不
区
分
d
k
和
d
v
,
均
使
用
d
表
示
。
P
部
分
的
计
算
需
要
把
序
列
中
每
个
位
置
的
t
o
k
e
n
都
两
两
组
合
在余下部分不区分d_k和d_v,均使用d表示。\tiny P部分的计算需要把序列中每个位置的token都两两组合
在余下部分不区分dk和dv,均使用d表示。P部分的计算需要把序列中每个位置的token都两两组合
新型:linformer中的多头注意力
两种注意力的对比图:
选
择
k
<
<
n
,
以
下
的
空
间
与
时
间
计
算
的
复
杂
度
为
O
(
n
k
)
选择k<<n,以下的空间与时间计算的复杂度为 O(nk)
选择k<<n,以下的空间与时间计算的复杂度为O(nk)
投
影
矩
阵
E
i
,
F
i
∈
R
n
×
k
,
K
W
i
K
&
V
W
i
V
∈
R
n
×
d
投影矩阵E_i,F_i\in R^{n×k}, \\ KW_i^K\ \& \ VW_i^V\in R^{n×d}
投影矩阵Ei,Fi∈Rn×k,KWiK & VWiV∈Rn×d
原因
Johnson–Lindenstrauss Lemma —对数降维到低秩定理。
定
理
1
:
s
e
l
f
−
a
t
t
e
n
t
i
o
n
是
低
秩
的
定理1:self-attention是低秩的
定理1:self−attention是低秩的
既
然
P
是
低
秩
的
,
使
用
阶
段
的
S
V
D
近
似
实
验
发
现
,
矩
阵
P
中
的
大
部
分
信
息
都
可
以
由
少
量
最
大
的
奇
异
值
来
恢
复
。
既然P是低秩的,使用阶段的SVD近似实验发现,矩阵 P 中的大部分信息都可以由少量最大的奇异值来恢复。
既然P是低秩的,使用阶段的SVD近似实验发现,矩阵P中的大部分信息都可以由少量最大的奇异值来恢复。
定
理
2
:
k
为
O
(
d
/
ϵ
2
)
时
,
可
以
以
ϵ
线
性
逼
近
定理2:k为 O(d /\epsilon^2) 时,可以以\epsilon 线性逼近
定理2:k为O(d/ϵ2)时,可以以ϵ线性逼近
文章地址:Linformer: Self-Attention with Linear Complexity
王思农、李贝琳达、马甸·卡萨、韩芳、马浩
大型transformer模型在许多自然语言处理应用中取得了非凡的成功。然而,对于长序列,训练和部署这些模型的成本可能会高得令人望而却步,因为变压器的标准自我注意机制在序列长度方面使用O(n2)时间和空间。在本文中,我们证明了自我注意机制可以用低秩矩阵来近似。我们进一步利用这一发现提出了一种新的自我注意机制,该机制在时间和空间上将整体自我注意复杂性从O(n2)降低到O(n)。得到的线性Transformer,与标准变压器模型相匹配,同时具有更大的存储和具有时效性的性能。
投影后秩降低的问题《Low-Rank Bottleneck in Multi-head Attention Models》
由 于 标 准 s e l f − a t t e n t i o n 使 用 s o f t m a x 中 e Q K T 有 可 能 升 秩 , 而 投 影 后 可 能 无 法 保 持 高 秩 , 维 持 更 多 的 信 息 。 由于标准self-attention使用softmax中e^{QK^T}有可能升秩,而投影后可能无法保持高秩,维持更多的信息。 由于标准self−attention使用softmax中eQKT有可能升秩,而投影后可能无法保持高秩,维持更多的信息。
更多相关:
Efficient Transformers: A Survey
Perfomer论文:RETHINKING ATTENTION WITH PERFORMERS
通过 Performer 架构再探注意力机制
Reformer: The Efficient Transformer局部敏感哈希LSH Attention 残差网络Residual Network
https://lilianweng.github.io/lil-log/2020/04/07/the-transformer-family.html
Transformers大家族——Efficient Transformers: A Survey