position embedding学习

最新推荐文章于 2024-09-02 08:31:45 发布

FIXLS

最新推荐文章于 2024-09-02 08:31:45 发布

阅读量6.5k

点赞数 1

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_15113429/article/details/97614943

版权

NLP 专栏收录该内容

127 篇文章 8 订阅

订阅专栏

深入分析学习

transformer中在进行attention的时候，位置进行变化但是attention的结果一样，在attention之后进行全连接的时候虽然知道词之间的位置，但是attention的结果没有位置信息这个时候进行全连接也是不能学习到位置信息的，所以需要进行位置信息编码

一句话的长度是d，有d个词

那么生成的embedding是根据d的index进行生成的，是一个绝对的embedding.

为什么用这个函数

Position Embedding本身是一个绝对位置的信息，但在语言中，相对位置也很重要，Google选择前述的位置向量公式的一个重要原因是：由于我们有sin(α+β)=sinαcosβ+cosαsinβsin⁡(α+β)=sin⁡αcos⁡β+cos⁡αsin⁡β以及cos(α+β)=cosαcosβ−sinαsinβcos⁡(α+β)=cos⁡αcos⁡β−sin⁡αsin⁡β，这表明位置p+kp+k的向量可以表示成位置pp的向量的线性变换，这提供了表达相对位置信息的可能性。

所以绝对位置也提供了相对位置信息

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。