1. 如何理解attention
attention可以理解为一种soft方式的用key找value
- a. Key找Value: 是有了key,就找出对应的value
- b. soft方式的 Key找Value: Query*key ->value, attention是Key要结合着Query,然后看在多大程度上使用value
- c.除了上述公式,也可以用别的Query和key的计算方式,比如:
f ( Q , K ) = { Q T ∗ K d o t Q T ∗ W ∗ K g e n e r a l W ∗ [ Q , K ] c o n c a t e t a n h ( W 1 ∗ Q + W 2 ∗ K ) n e r u a l _ n e t w o r k f(Q,K)=\left\{ \begin{array}{rcl} Q^{T}*K & & dot \\ Q^{T}*W*K & & general \\ W*[Q,K] & & concate \\ tanh(W_1*Q+W_2*K) & & nerual\_network \\ \end{array} \right. f(Q,K)=⎩⎪⎪⎨⎪⎪⎧QT∗KQT∗W∗KW∗[Q,K]tanh(W1∗Q+W2∗K)dotgeneralconcatenerual_network
2. 如何理解self?
Q K V都是基于input x产生的;实际上是input的self-attention
Q
=
x
W
Q
Q=x W^Q
Q=xWQ
K
=
x
W
K
K=x W^K
K=xWK
V
=
x
W
V
V=x W^V
V=xWV
参考资料: