Hi,这是第四篇算法简介呀!
论文链接:Self-Attention with Relative Position Representations,2018
文章概述
Vaswani等人提出了只用注意力机制的Transformer,没有显式地建立相对位置或绝对位置信息的模型。这篇文章提出了一种有效地将相对位置表示纳入Transformer的Self-Attention中的方法。
在Transformer中,Encoder由self-attention和position-wise前馈层组成。Decoder部分增加Mask部分防止训练期间合并关于未来输出位置的信息。在Encoder和Decoder之前,使用基于正弦变化的位置编码。
在Self-Attention中,将input sentence x x x,通过value矩阵 W V W^V WV和权重 α i j \alpha_{ij} αij,将 x j x_j xj转化为target sentence中的 z j z_j zj。
在这篇文章中,将input建模为一个有标记的、有向的、完全连接的图,考虑元素之间的关系。输入元素<