[论文阅读]Self-Attention with Relative Position Representations

本文提出了一种改进的self-attention机制,称为关系感知的self-attention,它通过引入相对位置表示,使得Transformer模型能有效地考虑序列元素间的相对位置信息。在WMT2014 EN-DE和EN-FR翻译任务上,这种方法相较于直接使用位置编码,实现了BLEU分数的提升。实验表明,当超过特定距离后,相对位置信息的效果减弱。
摘要由CSDN通过智能技术生成


前言

论文名:Self-Attention with Relative Position Representations
论文作者:Peter Shaw et al.
机构:
	Google Brain & Google
期刊/会议名:NAACL 2018
本文作者:XMU_MIAO
日期:2021/1/19

摘要

  完全依赖于注意力机制的Transformer模型在机器翻译上取得了最好的结果。不同于卷积网络或循环网络,Transformer结
构中并不明确地建模(输入字符的)相对或绝对信息。相反,其需要向输入中添加绝对位置表示。在本文的工作中,我们提出一种可供选择的方法来扩展self-attention机制,使其能够高效地考虑到序列元素之间的相对位置或距离。

  在WMT2014EN-DE和EN-FR任务上,这种方法相对于直接在输入中添加绝对位置信息能够产生1.3BLEU和0.3BLEU的提升。值得注意的是,我们观察到将绝对信息和相对信息相结合并不能在翻译质量上产生进一步的提升。我们描述了我们方法的一个有效实现,并将其转换为一个关系感知(relation-aware)的自我注意机制(self-attention mechanism)的实例,该机制可以推广到任意带标记图的输入。

1、Introduction & Motivation

  Transformer模型结构上没有考虑输入序列的顺序,因而需要显式地在输入序列添加位置编码才能够利用序列的位置信息。例如对于一个输入序列 “I BELIEVE THAT I CAN DO IT”,如果不添加位置信息,那么transformer模型是无法感知序列中的两个 “I” 的先后关系。 常见的做法是输入序列的词嵌入(Word Embedding)上加上位置编码(Position Encodings),这些位置编码可以是随时间变化的函数或者是可训练的参数。Transformer模型中注意力计算形式如下 a t t n = A t t e n t i o n ( X W Q , X W K , X W V ) attn=Attention(XW^Q,XW^K,XW^V) attn=Attention(XWQ,XWK,XWV)其中 X = X E + X P X=X_E+X_P X=XE+XP表示输入序列的 W o r d    E m b e d d i n g Word\,\,Embedding WordEmbedding P o s i t i o n    E n c o d i n g s Position\,\,Encodings PositionEncodings之和,在 A t t e n t i o n Attention Attention函数中主要利用位置编码的地方在于计算 A t t n    S c o r e Attn\,\,Score AttnScore,而计算 A t t n    S c o r e Attn\,\,Score AttnScore的核心公式为: s c o r e s = ( X W Q ) ( X W K ) T = X W Q ( W K ) T X T scores=(XW^Q)(XW^K)^T=XW^Q(W^K)^TX^T scores=(XWQ)(XWK)T=XWQ(WK)TXT经过 W Q ( W K ) T W^Q(W^K)^T WQ(WK)T变换之后,位置编码信息会有所缺失。本文从结构上对 A t t e n t i o n    M e c h a n i s m Attention\,\,Mechanism AttentionMechanism进行改变,提出相对感知的注意力机制( R e l a t i o n − a w a r e    S e l f − A t t e n t i o n Relation{-}aware\,\,Self{-}Attention RelationawareSelfAttention),接下来先详细介绍一下对于 o n e   h e a d one\,head onehead s e l f − a t t e n t i o n self{-}attention selfattention机制。

1.1 self-attention(One Head)

   s e l f − a t t

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值