论文:Self-Attention with Relative Position Representations

动机

RNN的结构是通过隐状态对序列信息进行编码的。

第二个 I 的输出和第一个 I 的输出是不同的,这是因为输入到其中的隐状态是不同的。对于第二个 I 来说,隐状态经过了单词"I think therefore",而第一个 I 是刚刚经过初始化的。因此,RNN的隐状态会使得处于不同位置的相同词具有不同的输出表示。恰恰相反的是,具有自注意力机制的Transformer(没有位置编码的)会使得不同位置的相同词具有相同的输出表示。

上图表示的是输入序列为"I think therefore I am",然后传送到Transformer的的结果。

 

Self-Attention
 

其中,,  , d_{z}=d_{x}/h, h为注意力头数

 

Relation-aware Self-Attention

在普通self-attention的基础上,这篇文章引入了两个与相对位置相关的向量:,  d_{a}=d_{z}

如果attention的目标词是x_{i}的话,那么在计算x_{j}x_{i}的注意力特征的时候,需要额外考虑x_{j}x_{i}的两个与位置相关的向量。
引入这两个向量之后,上述self-attention的计算可以修改为:

 

Relative Position Representations

Relative Position Representations的目标是给出a_{ij}^{K}, a_{ij}^{V}的计算方式。作者假设如果序列中两个元素的距离超过k,则这两元素之间的位置信息就没有意义了。同时,a_{ij}^{K}, a_{ij}^{V}应该只跟相对位置有关,而与x_{i},x_{j}没有关系。作者直接将a_{ij}^{K}, a_{ij}^{V}定义为了可训练的向量,本质上是训练w^{K}=\left \{ w_{-k}^{K} , ... , w_{k}^{K} \right \}w^{V}=\left \{ w_{-k}^{V} , ... , w_{k}^{V} \right \}

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值