论文阅读——Self-Attention with Relative Position Representations

Self-Attention with Relative Position Representations

Abstract

2017年Vaswani等人提出的Transformer需要在输入中添加绝对位置表示。作者在这篇文章中提出将元素与元素之间的相对位置表示引入了self-attention机制,在两个机器翻译(WMT 2014 EN-DE and EN-FR)的任务中,引入相对位置表示的self-attention比绝对位置编码的self-attention有明显的提升。但相对与绝对结合并不会进一步提高翻译质量。

1 Introduction

RNNs通常根据时间ttt的输入和先前的隐藏状态ht−1h_{t-1}ht1计算隐藏状态hth_tht,通过时序结构直接获取时间维度上的相对和绝对位置。非递归模型(如Transformer)不一定顺序地考虑输入元素,因此可能需要明确地编码位置信息以便能够使用序列顺序。

一种常见的方法是使用与输入元素结合的位置编码,以将位置信息公开给模型。这些位置编码可以是位置的确定性函数或学习的表示形式。比如,卷积神经网络捕获每个卷积内核大小内的相对位置,已被证明仍然受益于位置编码。

2 Background
  • self-attention

202010251715376

假设我们从多头注意力机制中的一个头输出后的序列是 x=(x1,x2,...,xn)x=(x_1,x_2,...,x_n)x=(x1,x2,...,xn)​,其中 xi∈Rdxx_i∈R^{d_x}xiRdx​,这个时候,我们需要通过attention计算出一个新的序列 zzz​:
zi=∑j=1naij(xjWV) z_i=\sum_{j=1}^{n}a_{ij}(x_jW^V) zi=j=1naij(xjWV)
其中,权重系数 aija_{ij}aij是通过 softmax计算的:
aij=exp(eij)∑k=1nexp(eik) a_{ij}=\frac{exp(e_{ij})}{\sum_{k=1}^nexp(e_{ik})} aij=k=1nex

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值