相对位置编码(Relative Positional Encoding)
相对位置编码主要是为了在自注意力机制中引入相对位置的信息,而不是绝对位置。这种方法在处理长序列和序列中元素的相对关系时表现得更好。
原理
在相对位置编码中,注意力权重不仅依赖于内容向量(Query和Key),还依赖于元素之间的相对位置。相对位置编码可以通过计算一个位置相关的偏置矩阵,在注意力计算中作为额外的加权因子,而不需要与输入序列相加。
假设有一个输入序列 X = [ x 1 , x 2 , . . . , x n ] X = [x_1, x_2, ..., x_n] X=[x1,x2,...,xn],其中 n n n 是序列的长度。
公式
传统的自注意力机制公式为:
Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dkQKT)V
在相对位置编码中,公式会变为:
a i j = ( Q i W Q ) ⋅ ( K j W K ) T + r i j d k a_{ij} = \frac{(Q_i W^Q) \cdot (K_j W^K)^T + r_{ij}}{\sqrt{d_k}} aij=dk(QiWQ)⋅(KjWK)T+rij
其中, r i j r_{ij} rij 是一个表示位置关系的偏置项。
举例
假设有一个简单的输入序列 X = [ x 1 , x 2 , x 3 ] X = [x_1, x_2, x_3] X=[x1,x2,x3],每个元素的维度是 d k = 2 d_k = 2 dk