论文阅读——Self-Attention with Relative Position Representations

最新推荐文章于 2023-11-15 15:51:09 发布

原创

最新推荐文章于 2023-11-15 15:51:09 发布 · 3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #机器学习

Self-Attention with Relative Position Representations

Abstract

2017年Vaswani等人提出的Transformer需要在输入中添加绝对位置表示。作者在这篇文章中提出将元素与元素之间的相对位置表示引入了self-attention机制，在两个机器翻译（WMT 2014 EN-DE and EN-FR）的任务中，引入相对位置表示的self-attention比绝对位置编码的self-attention有明显的提升。但相对与绝对结合并不会进一步提高翻译质量。

1 Introduction

RNNs通常根据时间 $t$ 的输入和先前的隐藏状态 $h_{t-1}$ 计算隐藏状态 $h_t$ ，通过时序结构直接获取时间维度上的相对和绝对位置。非递归模型（如Transformer）不一定顺序地考虑输入元素，因此可能需要明确地编码位置信息以便能够使用序列顺序。

一种常见的方法是使用与输入元素结合的位置编码，以将位置信息公开给模型。这些位置编码可以是位置的确定性函数或学习的表示形式。比如，卷积神经网络捕获每个卷积内核大小内的相对位置，已被证明仍然受益于位置编码。

2 Background

self-attention

202010251715376

假设我们从多头注意力机制中的一个头输出后的序列是 $x=(x_1,x_2,...,x_n)$ ，其中 $x_i∈R^{d_x}$ ，这个时候，我们需要通过attention计算出一个新的序列 $z$ ：
$z_i=\sum_{j=1}^{n}a_{ij}(x_jW^V)$
其中，权重系数 $a_{ij}$ 是通过 softmax计算的：
$a_{ij}=\frac{exp(e_{ij})}{\sum_{k=1}^nexp(e_{ik})}$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Trigger_2017

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

从三大顶会论文看百变Self-Attention - self-attention的相关思想以及最新的研究进展.zip

11-11

从三大顶会论文看百变Self-Attention，i.e.,了解并熟悉self-attention的相关思想以及最新的研究进展。另外，一并附上一个self-attention论文集仓库（https://github.com/PengboLiu/NLP-Papers）

[论文笔记]Self-Attention with Relative Position Representations

日积月累，天道酬勤

08-17

300

本篇论文为Transformer建模了有限长度的相对位置信息，并可以共享到所有的序列。

1 条评论您还未登录，请先登录后发表或查看评论

【论文笔记】Self-Attention with Relative Position Representations

Luo_LA的博客

11-15

850

本文则是从Self-Attention机制内部出发，通过在计算过程中引入token之间的相对位置关系向量，打破了Self-Attention机制的Permutation-Invariant特性，从而更高效地完成了位置信息的编码，性能得到了提升。本文扩展自注意力以考虑输入元素之间的成对关系，从这个意义上讲，就是将输入建模为标记的(labeled)，有向的( directed)，完全连接的图( fully-connected graph)。的表示，将输入元素之间的edge表示为。个唯一的edge标签。

Self-Attention with Relative Position Representations 解读

weixin_41089007的博客

06-11

6757

原文地址：https://www.jianshu.com/p/cb5b2d967e90 论文链接：Self-Attention with Relative Position Representations 非递归的模型（attention，CNN等）并没有考虑输入序列中元素的顺序，因此在很多任务中可能需要显式地编码位置信息。这篇文章将元素与元素之间的相对位置表示引入了self-attentio...

2018-Self-Attention with Relative Position Representations

小毛激励我好好学习的博客

05-21

1262

文章目录1. Title2. Summary3. Problem Statement4. Method(s)4.1 Relation-aware Self-Attention4.2 Relative Position Representation4.3 Efficient Implementation5. Evaluation6. Conclusion 1. Title Self-Attention with Relative Position Representations https://github.

Self-Attention with Relative Position Representations（2018）

GY-赵的博客

05-11

750

transformer与递归和卷积神经网络不同，它不显式地对其结构中的相对或绝对位置信息进行建模在这项工作中，本文提出了另一种方法，扩展自我注意机制，以有效地考虑相对位置的表示，或序列元素之间的距离。在这项工作中，我们提出了一种将相对位置表征结合到transformer self-attention中的有效方法。即使完全替换其绝对位置编码，我们也在两个机器翻译任务上证明了翻译质量的显著提高。主要对相对位置编码做了一个扩展，attention中在第一层之前，将基于变化频率的正弦的位置编码与编码器和解码器.

论文：Self-Attention with Relative Position Representations

chaojianmo的博客

12-06

1122

动机 RNN的结构是通过隐状态对序列信息进行编码的。第二个 I 的输出和第一个 I 的输出是不同的，这是因为输入到其中的隐状态是不同的。对于第二个 I 来说，隐状态经过了单词"I think therefore"，而第一个 I 是刚刚经过初始化的。因此，RNN的隐状态会使得处于不同位置的相同词具有不同的输出表示。恰恰相反的是，具有自注意力机制的Transformer（没有位置编码的）会使...

[论文阅读]Self-Attention with Relative Position Representations

ZY_miao的博客

01-19

792

文章目录前言摘要1、Introduction & Motivation2、How to do ?3、Experiments Analysis总结前言论文名：Self-Attention with Relative Position Representations 论文作者：Peter Shaw et.al. 机构： Google Brain & Google 期刊/会议名：NAACL 2018 本文作者：XMU_MIAO 日期：2021/1/18 摘要 1、Introduc

相对位置编码之RPR式：《Self-Attention with Relative Position Representations》论文笔记

weixin_43646592的博客

11-30

3903

transformer-XL, XLNet的基础。相对位置编码之RPR式：《Self-Attention with Relative Position Representations》论文笔记

【阅读笔记】《Self-attention with relative position representations》

yetzirah的博客

09-09

404

论文《Self-attention with relative position representations》的阅读笔记

【Transformer】Self-Attention with Relative Position Representations及实现pytorch代码

qq_40731332的博客

03-09

2042

在Transformer中加入可训练的embedding编码，使得output representation可以表征inputs的时序/位置信息。这些embedding vectors在计算输入序列中的任意两个单词i,j之间的key和value是被加入其中。embedding vector用于表示单词i，j之间的距离，因此命名为“相对位置表征”（Relative Postiion Representation）。 Self-Attention 输入序列xi经过Self-Attention之后输...

《Self-Attention with Relative Position Representations》论文笔记

热爱永不过时！

11-10

786

一、摘要在传统transformer中，无法像循环神经网络和卷积神经网络一样加入相对位置信息和绝对位置信息。这使transformer模型缺少很重要一部分信息。本文提出在==自注意力机制中加入相对位置信息，用来表征序列中元素的距离关系==。同时，本文发现融合相对位置和绝对位置信息对模型在翻译任务中的质量没有提高。二、介绍在注意力模型架构中，要加入位置信息，通常会使用position encoding或者基于距离的偏置注意力权重。在机器翻译中，作者尝试完全移除绝对位置编码，并加入相对位置编码

Self-Attention with Relative Position Representations

//Katniss的征程

11-15

857

Hi，这是第四篇算法简介呀！论文链接：Self-Attention with Relative Position Representations，2018 文章概述 Vaswani等人提出了只用注意力机制的Transformer，没有显式地建立相对位置或绝对位置信息的模型。这篇文章提出了一种有效地将相对位置表示纳入Transformer的Self-Attention中的方法。在Tran...

论文阅读笔记：Self-Attention with Relative Position Representations

BoCong-Deng的博客

10-24

4956

了解Transformer的都知道，与递归和卷积神经网络相反，它没有在其结构中显式地建模相对或绝对位置信息，而是它需要在其输入中添加绝对位置的表示，这是一种完全依赖于注意力机制的方法。在本篇论文中，提出了一种替代方法，扩展了自注意机制，可以有效地考虑相对位置或序列元素之间距离的表示。本文描述了该方法的有效实现，并将其转换为可感知到任意图标记输入的相对位置感知自注意力机制的实例，即提出了一种将相对位置表示形式并入Transformer自注意机制的有效方法，残差连接有助于将位置信息传播到更高的层。

How Self-Attention with Relative Position Representations works

herosunly的博客

05-15

2205

本文的主要内容是基于相对位置表示的自注意力机制是如何工作的。 1. 引论本篇文章是基于 Self-Attention with Relative Position Representations(https://arxiv.org/pdf/1803.02155.pdf)，它提出了一种对Transformer的输入序列中的位置编码的替代方法。它改变了Transformer的自注意力机制，从......

Self-Attention with Relative Position Representations阅读笔记

weixin_44378920的博客

04-01

569

一句话概括：在Transformer模型中加入相对位置表示，可以提升翻译结果的质量。 Transformer：采用encoder-decoder框架 encoder里面有多层，每一层包括两个子层 self-attention 和 FFN（a position-wise feed-forward layer），子层之间通过 layer normalization 连接，层与层之间通过 residual 连接。 decoder里面同样可以定义多层。每一层包括三个子层 self-attention 、e

2-26-Self-Attention with Relative Position Representations

qq_40723205的博客

02-06

287

原文链接： https://dengbocong.blog.csdn.net/article/details/107939242 Transformer与递归和卷积神经网络相反，它没有在其结构中显式地建模相对或绝对位置信息，而是它需要在其输入中添加绝对位置的表示，这是一种完全依赖于注意力机制的方法。本文提出了一种将相对位置表示形式并入Transformer自注意机制的有效方法，残差连接有助于将位置信息传播到更高的层。循环神经网络（RNN）通常根据时间 t 的输入和先前的隐藏状态计算隐藏...

论文研读之 Self-Attention

ZhangK9509的博客

03-20

842

涉及论文： Graph Attention Convolution for Point Cloud Semantic Segmentation Dual Attention Network for Scene Segmentation 在一篇标题包含“Attention”的论文中，你可能会看到以下公式： aij,k=exp(a~ij,k)∑l∈N(i)exp(a~il,k) a_{ij,k...

self-attention with relative position representations

03-16

自注意力机制与相对位置表示。自注意力机制是一种用于处理序列数据的机制，它可以在不同位置上对序列中的元素进行加权聚合，以获得更好的表示。相对位置表示是一种用于表示序列中元素之间相对位置的方法，它可以帮助...