Transformer模型就是一个巨大的统计库
如果embedding不变数据一定会收敛于某个分类中,也就是attion的参数会趋向于一个极限。
不受数据位置的影响,受关键连续数据的影响,可以捕获关键连续数据,这是提取了数据的特性。
所以transformer训练后只能做微调。
验证如下:
o
u
t
p
u
t
,
a
t
t
n
=
A
t
t
e
n
t
i
o
n
(
E
(
X
)
,
W
1
)
a
r
g
m
a
x
(
s
i
n
(
a
t
t
n
)
,
W
2
)
⟶
α
output,attn = Attention(E(X),W_1) \\ argmax(sin(attn), W_2) \longrightarrow \alpha
output,attn=Attention(E(X),W1)argmax(sin(attn),W2)⟶α
无论参数如何变化,只要输入不变都会趋向于一个区间,具体原理不知道