Transformer中Self-Attention以及Multi-Head Attention计算过程详解
原文名称:Attention Is All You Need原文链接:https://arxiv.org/abs/1706.03762最近Transformer在CV领域很火,Transformer是2017年Google在Computation and Language上发表的,当时主要是针对自然语言处理领域提出的(之前的RNN模型记忆长度有限且无法并行化,只有计算完tit_iti时刻后的数据才能计算ti+1t_{i+1}ti+1时刻的数据,但Transformer可以)。
复制链接