Notes self-attention:表示自注意。在机器翻译中,attention分配通常是目标单词对源语句各单词的概率分布。而self-attention表示source --> source的attention分配,这样每个单词便能捕获与其他所有单词的关系特征,解决了RNN无法学习长程特征的问题。Multi-head:表示 X X X 同时做多次映射得到多个query、key、value。 Refer https://arxiv.org/abs/1706.03762http://jalammar.github.io/illustrated-transformer/