Transformer 详解(encoder)
若encoder的输入为 X ∈ R b a t c h _ s i z e × s e q u e n c e _ l e n X \in R^{batch\_size \space \times \space sequence\_len} X∈Rbatch_size × sequence_len,则encoder的输出是是个向量, X h i d d e n ∈ R b a t c h _ s i z e × s e q u e n c e _ l e n × e m b e d d i n g _ d i m X_{hidden} \in R^{batch \_ size \space \times \space sequence \_ len\space \times \space embedding \_ dim} Xhidden∈Rbatch_size × sequence_len × embedding_dim
Transformer 详解(decoder以及训练过程的输入输出等问题)
自注意力的另一种解释就是在编码某个单词时,就是将所有单词的表示(值向量)进行加权求和,而权重是通过该词的表示(键向量)与被编码词表示(查询向量)的点积并通过softmax得到