一、知识树
二、算法模型总览
注:这一部分主要介绍在论文改进前的原有模式模型
三、Self Attention
1. Scaled Dot-Product Attention
input
X1乘以WQ等于q1,X1乘以WK等于k1。
除以根号dk的目的是为了使得后续通过softmax得到的结果使得梯度很小。
q1和k1的乘积明显比q1和k2的乘积大,说明Thinking与自身的关系比与Machines的关系要密切。
2. Multi Head Attention
以两个head为例,将上面Scaled Dot-Product Attention中的q拆分为q1和q2(WQ拆分为WQ1和WQ2,WQ1*X=q1,WQ2*X=q2)。qi,1必须和ki,1或kj,1相乘最后乘以vi,1或vj,1,qi,2必须和ki,2或kj,2相乘最后乘以vi,2或vj,2。
将W矩阵切成8个小矩阵,head的数量就是8。Z0-Z7拼接起来与Wo相乘得到Z矩阵。
encoder的输出都是512维的。
四、Feed-Forward network
五、Positional Encoding
六、Mask
1、 Sequence Mask
为了防止decoder 的时候看到 未来的信息
2、 Padding Mask
attention时处理 pad 时为 0 的值原
七、Layer Normalization