[论文阅读]Self-Attention with Relative Position Representations

最新推荐文章于 2022-09-09 14:42:28 发布

XMU_MIAO

最新推荐文章于 2022-09-09 14:42:28 发布

阅读量603

点赞数 1

分类专栏：论文阅读文章标签：深度学习自然语言处理神经网络机器学习 python

本文链接：https://blog.csdn.net/ZY_miao/article/details/112790327

版权

本文提出了一种改进的self-attention机制，称为关系感知的self-attention，它通过引入相对位置表示，使得Transformer模型能有效地考虑序列元素间的相对位置信息。在WMT2014 EN-DE和EN-FR翻译任务上，这种方法相较于直接使用位置编码，实现了BLEU分数的提升。实验表明，当超过特定距离后，相对位置信息的效果减弱。

摘要由CSDN通过智能技术生成

文章目录

前言
摘要
1、Introduction & Motivation
- 1.1 self-attention（One Head）
2、How to do ?
- 2.1 Relation-aware Self-Attention
- 2.2 Relative Postion Representations
3、Experiments Analysis(main)
总结

前言

论文名：Self-Attention with Relative Position Representations
论文作者：Peter Shaw et al.
机构：
	Google Brain & Google
期刊/会议名：NAACL 2018
本文作者：XMU_MIAO
日期：2021/1/19

摘要

完全依赖于注意力机制的Transformer模型在机器翻译上取得了最好的结果。不同于卷积网络或循环网络，Transformer结
构中并不明确地建模（输入字符的）相对或绝对信息。相反，其需要向输入中添加绝对位置表示。在本文的工作中，我们提出一种可供选择的方法来扩展self-attention机制，使其能够高效地考虑到序列元素之间的相对位置或距离。
在WMT2014EN-DE和EN-FR任务上，这种方法相对于直接在输入中添加绝对位置信息能够产生1.3BLEU和0.3BLEU的提升。值得注意的是，我们观察到将绝对信息和相对信息相结合并不能在翻译质量上产生进一步的提升。我们描述了我们方法的一个有效实现，并将其转换为一个关系感知（relation-aware）的自我注意机制（self-attention mechanism）的实例，该机制可以推广到任意带标记图的输入。

1、Introduction & Motivation

Transformer模型结构上没有考虑输入序列的顺序，因而需要显式地在输入序列添加位置编码才能够利用序列的位置信息。例如对于一个输入序列 “I BELIEVE THAT I CAN DO IT”，如果不添加位置信息，那么transformer模型是无法感知序列中的两个 “I” 的先后关系。 常见的做法是输入序列的词嵌入（Word Embedding）上加上位置编码（Position Encodings），这些位置编码可以是随时间变化的函数或者是可训练的参数。Transformer模型中注意力计算形式如下 $attn=Attention(XW^Q,XW^K,XW^V)$ 其中 $X=X_E+X_P$ 表示输入序列的 $Word\,\,Embedding$ 和 $Position\,\,Encodings$ 之和，在 $A t t e n t i o n$ 函数中主要利用位置编码的地方在于计算 $Attn\,\,Score$ ，而计算 $Attn\,\,Score$ 的核心公式为： $scores=(XW^Q)(XW^K)^T=XW^Q(W^K)^TX^T$ 经过 $W^Q(W^K)^T$ 变换之后，位置编码信息会有所缺失。本文从结构上对 $Attention\,\,Mechanism$ 进行改变，提出相对感知的注意力机制（ $Relation{-}aware\,\,Self{-}Attention$ ），接下来先详细介绍一下对于 $one\,head$ 的 $self{-}attention$ 机制。

1.1 self-attention（One Head）

最低0.47元/天解锁文章

XMU_MIAO

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读]Self-Attention with Relative Position Representations

文章目录前言摘要1、Introduction & Motivation2、How to do ?3、Experiments Analysis总结前言论文名：Self-Attention with Relative Position Representations论文作者：Peter Shaw et.al.机构： Google Brain & Google期刊/会议名：NAACL 2018本文作者：XMU_MIAO日期：2021/1/18摘要 1、Introduc
复制链接

扫一扫