Self-attention
- 输入是 I:a1,a2,a3,a4
- I 乘以 Wq,Wk,Wv 矩阵得到 Q,K,V
- 计算attention score矩阵 A,使用softmax或者别的也可以比如relu,得到 A’
- 流程总结
- Self-attention中 要学习的参数 只有 Wq,Wk,Wv
Multi-head self-attention
- 头的数量是一个 超参数,翻译,语音识别中需要设计比较多个头
- ai 乘上一个矩阵得到 qi,然后 qi 乘上另外两个矩阵(以两个头为例子)得到 qi1,qi2
- 然后将得到bi1,bi2 乘以一个矩阵得到最后的 bi
Position Encoding
Layer Normalization
- 对同一个样本中不同维度的特征进行归一化
- Layer Norm 中x’去掉右边上标
Masked Self-attention
- 计算self-attention的时候只考虑,当前值和当前值之前的值
- 比如计算b2时,只考虑 a1 和 a2
Cross attention
- 用 Encoder 中的 k 和 v,用 Decoder 中的 q