架构图:
Self-Attention公式:
-
X:代表输入。
-
dk:是单个头的维度(当是单个头,也就是k向量的维度)。
-
selfAttention到合并完多个头就截止,剩下的模块不属于SelfAttention模块。
position编码:
d_model是模型的Embedding向量维度,512。
X:代表输入。
dk:是单个头的维度(当是单个头,也就是k向量的维度)。
selfAttention到合并完多个头就截止,剩下的模块不属于SelfAttention模块。
d_model是模型的Embedding向量维度,512。