Attention Transformer self attention RNN,LSTM均需要先输出t0,才能输出t1…(串行) Transformer可无限长记忆,和并行。W权重共享,为同一个。 d为v^1中的元素数量 Multi-head Self-Attention 位置编码,当a3和a2调换时,也应有影响