2-26-Self-Attention with Relative Position Representations

 

原文链接  : https://dengbocong.blog.csdn.net/article/details/107939242

Transformer与递归和卷积神经网络相反,它没有在其结构中显式地建模相对或绝对位置信息,而是它需要在其输入中添加绝对位置的表示,这是一种完全依赖于注意力机制的方法。

本文提出了一种将相对位置表示形式并入Transformer自注意机制的有效方法,残差连接有助于将位置信息传播到更高的层。

循环神经网络(RNN)通常根据时间 t 的输入和先前的隐藏状态 计算隐藏状态 h t 直接通过其顺序结构沿时间维度捕获相对位置和绝对位置。非循环模型不必一定要顺序考虑输入元素,因此可能需要显式编码位置信息才能使用序列顺序。

一种常见的方法是使用与输入元素结合的位置编码,以将位置信息公开给模型。这些位置编码可以是位置的确定性函数或学习的表示形式。比如,卷积神经网络捕获每个卷积内核大小内的相对位置,已被证明仍然受益于位置编码。

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值