这里是对self-Attention具体的矩阵操作,包括怎么separate head,如何进行的QK乘法等细节做了记录,以便自己以后查看。
Dot-Product Self-Attention
Note:
- 其中的 X n , d m o d e l X^{n,d_{model}} Xn,dmodel一般是seq序列,n为序列的长度, d m o d e l d_{model} dmodel为序列的emedding维度。在self-attention中 d k d_k dk和 d v d_v dv是相等的。
- Q K T d k \frac{QK^T}{\sqrt[]{d_k}} dk