2-26-Self-Attention with Relative Position Representations

最新推荐文章于 2023-11-15 15:51:09 发布

NANCYGOODENOUGH

最新推荐文章于 2023-11-15 15:51:09 发布

阅读量194

点赞数

分类专栏： ~~~Transformer~~~

原文链接：https://dengbocong.blog.csdn.net/article/details/107939242

版权

~~~Transformer~~~ 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

原文链接： https://dengbocong.blog.csdn.net/article/details/107939242

Transformer与递归和卷积神经网络相反，它没有在其结构中显式地建模相对或绝对位置信息，而是它需要在其输入中添加绝对位置的表示，这是一种完全依赖于注意力机制的方法。

本文提出了一种将相对位置表示形式并入Transformer自注意机制的有效方法，残差连接有助于将位置信息传播到更高的层。

循环神经网络（RNN）通常根据时间 t 的输入和先前的隐藏状态计算隐藏状态 h t 直接通过其顺序结构沿时间维度捕获相对位置和绝对位置。非循环模型不必一定要顺序考虑输入元素，因此可能需要显式编码位置信息才能使用序列顺序。

一种常见的方法是使用与输入元素结合的位置编码，以将位置信息公开给模型。这些位置编码可以是位置的确定性函数或学习的表示形式。比如，卷积神经网络捕获每个卷积内核大小内的相对位置，已被证明仍然受益于位置编码。

NANCYGOODENOUGH

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2-26-Self-Attention with Relative Position Representations

原文链接： https://dengbocong.blog.csdn.net/article/details/107939242Transformer与递归和卷积神经网络相反，它没有在其结构中显式地建模相对或绝对位置信息，而是它需要在其输入中添加绝对位置的表示，这是一种完全依赖于注意力机制的方法。本文提出了一种将相对位置表示形式并入Transformer自注意机制的有效方法，残差连接有助于将位置信息传播到更高的层。循环神经网络（RNN）通常根据时间 t 的输入和先前的隐藏状态计算隐藏...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。